Come funziona la compressione MPEG

30 Agosto 2004

Ecco in dettaglio le cinque tecniche utilizzate per la compressione video

luglio 2004 La compressione dei flussi di dati per il video digitale è una delle tecnologie più complesse che impegnano da anni team di scienziati.

L’istituto ISO (Industry Standard Organization) ratifica le specifiche a livello mondiale di molteplici standard industriali ed il team di scienziati del gruppo MPEG si occupa da circa venti anni di standardizzare i formati di compressione per immagini e video.

La compressione dei dati in una singola immagine può essere di tipo “Same” o di tipo “Lossy”, nel primo caso non si ha perdita qualitativa e la compressione viene applicata solo a dati ridondanti che possono essere ricostruiti identici dopo la decompressione. E’ il caso del formato .TIF che adotta una compressione LZW del tipo di quella usata dai noti WinZip e WinRar. In caso di immagini di milioni di colori tuttavia questa compressione non risulta molto efficiente.

E’ qui che subentrano gli algoritmi di tipo Lossy nei quali è ammessa una perdita qualitativa dell’immagine ma tale da non renderla percepibile. è il caso del formato Jpeg per le immagini statiche e dell’MPEG per i video. Con queste tecnologie è possibile realizzare una compressione da 25:1 a 75:1, le tecniche adottate sono queste:

• Tecnica Dct (Discrete Cosine Transform): sfrutta la teoria matematica della trasformata discreta del coseno. Analizza nell’immagine (o nel fotogramma del video) la frequenza delle correlazioni spaziali che sono presenti tra zone adiacenti dell’immagine stessa. In particolare agisce su blocchi di 8×8 pixel e poi su macroblocchi di 16×16 pixel. Da qui deriva il fenomeno della blocchettizzazione dell’immagine quando il bitrate è basso.

• Quantizzazione: a seguito dell’analisi del Dct si potranno scartare le informazioni ridondanti e calcolare il livello di compressione per una data zona dell’immagine. Ad esempio se in una immagine è presente lo sfondo del cielo questa parte dell’immagine può essere compressa di più poiché tale sfondo è uniforme e presenta molte informazioni digitali ridondanti.

• Codifica Huffman: si tratta di una tecnica di compressione dei dati senza perdita di informazione basata su tabelle di codici.

• Motion estimation e compensation: algoritmi che tentano di prevedere in che modo in un video in movimento evolveranno le componenti dei singoli fotogrammi.

• Codifica con fotogramma chiave: i fotogrammi in MPEG non sono compressi tutti allo stesso modo, si parte da un fotogramma chiave poco compresso detto I-Frame, il successivo P-Frame (Predictive Frame) è compresso con gli algoritmi Motion Compensation e Motion Estimation, che confrontano il fotogramma corrente con l’I-Frame o con il P-Frame precedente, memorizzando soltanto le zone dell’immagine che sono differenti tra i due fotogrammi. Il B-Frame (Bidirectional Predictive Frame) è il fotogramma maggiormente compresso e prende come riferimento sia il fotogramma precedente che quello successivo. Abbiamo cosi una sequenza di fotogrammi I-B-B-P-B-B-P-B-B-P-B-B. è per questo motivo che le riprese con telecamera in movimento sono le più difficili da comprimere e spesso nelle scene movimentate, se il bitrate è basso, appaiono artefatti evidenti.

In MPEG4 abbiamo ulteriori perfezionamenti: l’algoritmo Gmc (Global Motion Compensation) cerca di analizzare l’evolvere dell’intera immagine, l’Sa-Dct (Shape Adaptive Dct) e Quarter Pel Motion Compensation consentono una compressione maggiore e meglio mirata su blocchi dell’immagine più piccoli. Alcuni algoritmi di MPEG4 per la ricomposizione delle immagini fanno uso di matematica frattale. In un flusso video MPEG4 è inoltre possibile inserire oggetti (es. un logo) non facenti parte del video stesso.