Theorie zu Kompression und Exkurs Multimedia

Inhalt

1. Verlustlose Kompression
1.1 Die Huffman-Kodierung
1.2 RLC/RLE - Run Length Coding/Encoding
1.3 Die Burrows-Wheeler-Transformation (BWT)
1.4 Der Lempel-Ziv-Welch-Algorithmus (LZW)

2. Einsatzgebiet der verlustbehafteten Kompression → Multimedia

3. Grundlagen zu Bild und Ton
3.1 Historischer Rückblick
3.2 Vom KinoGÄNGER zum FernSEHER
3.3 Interlaced Mode versus Progressive Mode
3.4 25/50 Bilder pro Sekunde oder 30/60 Bilder pro Sekunde
3.5 Elektromagnetische Wellen und Schallwellen
3.6 Additives und Subtraktives Farbmodell
3.7 Vom RGB-Bild zum Graustufenbild
3.8 Das Helligkeits-Farbigkeits-Modell YCbCr
3.9 Weitere Farbräume
3.10 Bildartefakte
3.11 Vektorgrafik und Bitmapgrafik
3.12 Transparenzmasken und Alphakanal
3.13 Masken und Transparenz bei After Effects (Optionales Thema

4. Medienformate
4.1 Web-Grafikformate
4.2 Historische Fernsehnormen in analogem SD (PAL, NTSC, SECAM)
4.3 Historische Fernsehnormen in digitalem SD (PAL, NTSC)
4.4 Heutige Fernsehnormen in digitalem HD (HDTV)
4.5 Next generation HD (UHD)
4.6 Video-Normen und Datenraten
4.7 Datenraten-Vergleichswerte
4.8 Codecs und Containerformate
4.9 Medienbeispiele

5. Bild und Video verlustbehaftet komprimieren
5.1 Reduzierung der Bild- oder Farbauflösung
5.2 Reduzierung der Farbauflösung mittels einer Farbtabelle
5.3 Die Farbunterabtastung/Subsampling
5.4 JPG-Bildkomprimierung mit DCT (Discrete Cosine Transformation)
5.5 Die Quantisierung bei DCT erklärt am Beispiel von Schulnoten
5.6 Interframe Komprimierung
5.7 Die GOP-Sequenz

1. Verlustlose Kompression

Man spricht von verlustfreier Kompression oder Redundanzreduktion, wenn aus den komprimierten Daten wieder alle Originaldaten gewonnen werden können. Das ist beispielsweise bei der Kompression ausführbarer Programmdateien notwendig.
Im Gegensatz dazu könen bei der verlustbehafteten Kompression oder Irrelevanzreduktion die Originaldaten nicht mehr aus den komprimierten Daten zurückgewonnen werden, das heisst, ein Teil der Information geht verloren. Solche Verfahren werden häufig zur Bild- Video- und Audiodatenkompression eingesetzt. Sie finden Informationen zur verlustbehafteten Kompression in den Multimedia-Fachartikeln unter Bildkompression. In diesem ersten Teil werden nun vier verlustlose Komprimierungsverfahren vorgestellt: Huffman, RLC, BWT und LZW.


1.1 Die Huffman-Kodierung

Die Huffman-Kodierung ist eine Form der Entropiekodierung. Sie ordnet einer festen Anzahl an Quellsymbolen jeweils Codewörter mit variabler Länge zu. Der Huffman-Code ist ein VLC (Variable Length Code)

Huffman-Kodierung am Textbeispiel «ERDBEERE»:
Das Wort «ERDBEERE» zählt 8 Buchstaben. Zuerst soll die Häufigkeit der einzelnen Buchstaben ermittelt werden:

Nun erstellt man einen binären Baum: Die am wenigsten häufigen Buchstaben werden zu einem übergeordneten Knoten zusammengefasst
Und so geht das entsprechend weiter bis zuoberst. Die Zahl 8 muss der Anzahl Buchstaben in Wort «ERDBEERE» entsprechen. Danach müssen die Äste des Baums beschriften werden - Nach Links 1 und nach Rechts 0 (Nach Links 0 und nach Rechts 1 wäre auch möglich)

Nun hat man den Huffman-Code für das Wort «ERDBEERE» ermittelt. (Mit nur 14 Bit ein Leichtgewicht gegenüber dem Wort «ERDBEERE» als ASCII-Text mit 8 x 8Bit (=64Bit)

Beim vorangegangenen Beispiel ist nur eine Lösung möglich. Das ändert sich, wenn man der ERDBEERE ein N anhängt, also ERDBEEREN daraus macht. Folgende Lösungen sind nun möglich. Das letzte Beispiel zeigt ein falscher Aufbau des binären Baums.


1.2 RLC/RLE - Run Length Coding/Encoding

Mit Run Length Encoding ist eine Lauflängenkodierung gemeint. Jede Sequenz von identischen Symbolen soll durch deren Anzahl und ggf. das Symbol ersetzt werden. Somit werden nur die Stellen markiert, an denen sich das Symbol in der Nachricht ändert. Effizient bei langen Wiederholungen.

RLE-Bit-Berechnung für die ersten vier Zeilen:
Der Speicherbedarf für das normale Bitmap: 4 Zeilen zu je 20 Pixel = 80Bit

Der Speicherbedarf für das RLE-komprimierte Bild:
Ab erstem Pixel oben links 31 x Weiss,  2 x Schwarz,  11 x Weiss,  3 x Schwarz, 2 x Weiss,  6 x Schwarz,  6 x Weiss,  6 x Schwarz,  1 x Weiss,  8 x Schwarz,  4 x Weiss  ergibt 11 Zahlen oder Farbwechsel.
Die Zahlen in Dualcode:  11111  00010  01011 00011 00010 00110 00110 00001 01000 00100
Zusammenfassend RLE: 11 x 5Bit = 55Bit


1.3 Die Burrows-Wheeler-Transformation (BWT)

Neben RLE Run-Length-Encoding und Huffman-Codierung ist die Burrows-Wheeler-Transformation (BWT) eine weitere Art, wie Daten verlustlos komprimiert werden können. BWT ist allerdings kein Algorithmus, der Daten direkt komprimiert. Vielmehr besteht seine Aufgabe darin, das Datenmaterial für eine anschliessende effektive Datenreduktion mit z.B. RLC vorzubereiten.

Beispiel für BWT: Das Wort «ERDBEERE» soll mit BWT verlustlos datenreduziert bzw. komprimiert werden.

Und die Rücktransformation:


1.4 Der Lempel-Ziv-Welch-Algorithmus (LZW)

Auch der Lempel-Ziv-Welch-Algorithmus (LZW) ermöglicht es, Daten verlustlos zu komprimieren. LZW wird häufig bei der Datenreduktion von Grafikformaten (GIF, TIFF) verwendet.

Beispiel für LZW: Das Wort «ENTGEGENGENOMMEN» soll verlustlos datenreduziert bzw. komprimiert werden. Die Werte 0 bis 255 sind den ASCII-Zeichen vorbehalten. Die Werte ab 256 sind Indexe, die auf einen Wörterbucheintrag verweisen.

Und die Rücktransformation:

Weitere verlustlose Datenreduktionsverfahren findet man in der entsprechenden Fachliteratur.


2. Einsatzgebiet der verlustbehafteten Kompression → Multimedia

Wenn Daten wie z.B. Texte, ausführbare Programme etc. komprimiert werden sollen, darf das anschliessende Expandieren nicht zu Verlusten führen. Es muss somit ein verlustloses Verfahren gewählt werden. Einige dieser Konzepte wurden im Kapitel "Verlustlose Kompression" vorgestellt. Im Medienbereich (Bild und Ton), wo riesige Datenmengen anfallen, ist das Bedürfnis effizient zu komprimieren besonders hoch. Allerdings genügen die sogenannten verlustlosen Verfahren alleine nicht. Die Medieninhalte müssen vor der eigentlichen Komprimierung speziell aufbereitet werden. Etwa so, wie beim Burrows-Wheeler-Verfahren, wo ein Text durch die Umstellung der Buchstaben in eine für das Run-Length-Coding günstige Anordnung transformiert wird. Diese vorangehende "Medienaufbereitung" hat allerdings den Nachteil, dass sie meist zu Datenverlusten führt: Das heisst: Nach der Komprimierung kann durch das Expandieren nicht mehr das 100% Abbild des Originals erstellt werden. Die Datenverluste unterscheiden sich je nach Komprimierungsverfahren und Komprimierungsintensität. Moderne Verfahren sind aber so clever, dass für den Betrachter kaum Einbussen erkennbar sind (Bsp. MPEG-4, AAC etc.). Im weiteren spielt im Medienbereich auch die Qualität der weitere Verarbeitungskette/Projektion eine Rolle (Bsp. Audio(analog)verstärker, Lautsprecher, Farbtreue des Projektors etc.)

Verlustbehaftete Bildkomprimierung - ein Beispiel:

  1. Originalbild: 1000 Pixel x 540 Pixel, 16.7 Millionen Farben (24Bit)
  2. Reduzierte Bildauflösung: 100 Pixel x 54 Pixel, 16.7 Millionen Farben (24Bit), Dateigrösse 100x kleiner als das Original
  3. Reduzierte Farbauflösung: 1000 Pixel x 540 Pixel, 16 Farben (4Bit), Dateigrösse 6x kleiner als das Original
  4. Graustufenbild: 1000 Pixel x 540 Pixel, 256 Graustufen (8Bit), Dateigrösse 3x kleiner als das Original
  5. Hohe DCT Komprimierung (JPG mit tiefer Qualität): 1000 Pixel x 540 Pixel, 16.7 Millionen Farben, Bildartefakte/Blockbildung!, Dateigrösse 42.8x kleiner als das Original
  6. Tiefe DCT Komprimierung (JPG mit hoher Qualität): 1000 Pixel x 540 Pixel, 16.7 Millionen Farben, Dateigrösse 4.8x kleiner als das Original

Um die Kompression bei Multimedia besser verstehen zu können, werden zuerst ein paar Grundlagen und Fachbegriffe aus dem Bereich Bild und Ton behandelt.


3. Grundlagen zu Bild und Ton

3.1 Historischer Rückblick

  • Von der Camera Obscura zur Digitalen Spiegelreflexkamera DSLR: Das lichtempfindliche Fotomaterial wird von lichtempfindlichen elektronischen Bildaufnahmeelementen (CCD, CMOS-Sensor) abgelöst. Wichtige Kriterien sind die Bildauflösung und die Komprimierung.
  • Von Grammophon und Schallplatte zum Musikplayer im Smartphone: Das analoge Verfahren mittels Schallplatte bzw. magentischem Band wird später vom digitalen Datenträger Music-CD und zuletzt von der Datencloud abgelöst. Für die digitale Variante müssen die akustisch erzeugten Schallwellen zuerst mittels A/D-Wandlung (Samplingrate, Quantisierung) in eine vom Rechner verarbeitbare Form gebracht werden.
  • Von der Serienfotografie zum 3D-Film: Ruckelfreie Bewegung erhält man ab ca. 12 Bilder/sec. Mehr als 50 Bildwiederholungen/sec. werden benötigt, um kein Bildflackern mehr zu erkennen. Film verwendet übrigens nur 24 Bilder/sec. Darum muss jedes Kinofilmbild zweimal an die Leinwand projiziert werden.
  • Vom Röhrenbildschirm zum LCD-Flatscreen: Zur Zeit der Röhrentechnik war die geforderte Bildwiederholfrequenz von 50 Hz. nur mit einem Trick, dem Halbbildverfahren (Interlaced), realisierbar.

3.2 Vom KinoGÄNGER zum FernSEHER

Den Kinofilm gibt es seit ca. 1894. Man hat sich beim klassisches Kino weltweit auf eine Bildwiederholfrequenz von 24 Ganzbilder/sec. geeinigt. Bei den Bildformaten gibt es hingegen eine grössere Vielfalt: Klassisch 12,5:9 / Breitbild 16:9 / Cinemascope 21:9. Auch die Digitalisierung hat beim Kinofilm Einzug gehalten. Heutige Filme werden komplett digital produziert und in den Kinos auch digital auf Beamern vorgeführt. Aktuelle Auflösungen bei digitalem Kinofilm: 2k = 2048Pixel/Zeile / 4k = 4096Pixel/Zeile.
Bei Breitbild- und Cinemascopeproduktionen wird bzw. wurde das Bild anamorph aufgezeichnet. Damit konnte man ein breites Bild auf ein schmaleres Format komprimieren (verzerren) und zur Vorführung wieder dekomprimieren (entzerren). Bei Digital-Video Standard-Definition (SD) PAL und NTSC kommt dieses Verfahren ebenfalls zur Anwendung.

3.3 Interlaced Mode versus Progressive Mode

Television oder auf Deutsch Fernsehen gibt es in der Schwarzweissversion seit ca. 1929 und in der Farbversion ab ca. 1967. Fernsehen wurde erst durch die Massentauglichkeit von Elektronenstrahlröhren bzw. Bildröhren möglich. Um das Bildflimmern auf ein erträgliches Mass zu reduzieren, müssen wie beim Kinofilm 50 Bilder pro Sekunde angezeigt werden. Dies war mit der damaligen Technik allerdings nicht möglich, weil die erforderlichen Bandbreiten fehlten und man mit vernünftigem Aufwand auch keine Bilder zwischenspeichern konnte. Darum bediente man sich eines Tricks: Man lieferte 50 halbe Bilder pro Sekunde und zwar einmal alle ungeraden Zeilen, gefolgt von den geraden Zeilen:

  • Interlaced Mode: Es werden 50 (PAL) oder 60 (NTSC) Halbbilder pro Sekunde nacheinander (ungerade/gerade Zeile) gesendet.
    Vorteil: Weniger Bandbreite erforderlich.
    Nachteil: Kammeffekt bei schnell bewegten Bildern, weil diese zeilenweise nacheinander aufgezeichnet werden.
  • Progressive Mode: Es werden komplette Bilder nacheinander empfangen.
    Vorteil: Man erhält immer ein komplettes Bild.
    Nachteil: Mehr Bandbreite erforderlich.

Ein weitere Kompromiss, der man der Bildröhre schuldete, ist der Overscanbereich:

  • Als Overscan wird ein Bereich an den äusseren Rändern eines Videobildes bezeichnet, dessen Sichtbarkeit nicht garantiert werden kann. Bei Projektionen, insbesondere bei Röhrenbildschirmen, werden die Bildränder durch eine Maske oder Blende abgedeckt, um Ungenauigkeiten und die (bei analogen Röhren praktisch unvermeidlichen) Geometrieabweichungen am Rand zu kaschieren und einen sauberen, geraden Bildabschluss garantieren zu können. Bei der Produktion von Filmen, Videos, DVDs und Fernsehsendungen muss dieser Overscan-Bereich von etwa 6 % berücksichtigt werden, der keine relevanten Bildelemente (z. B. Einblendungen oder Menüs) enthalten darf. Bei Bildschirmen mit aktiven Bildpunkten (z. B. LCD oder Plasma) kann das Bild pixelgenau dargestellt werden, so dass kein Overscan-Bereich nötig ist.

3.4 25/50 Bilder pro Sekunde oder 30/60 Bilder pro Sekunde

Als das Fernsehen erfunden wurde, setzte man weltweit auf das Seitenverhältnis 4:3. Bei der Bildwiederholungsrate allerdings unterschieden sich die Systeme:

  • Angelehnt an die Netzfrequenz des öffentlichen Stromnetzes von 50 Hertz wählte man in Europa (ohne Frankreich), Australien, Teilen von Asien und Afrika eine Bildfrequenz von 25 Vollbilder bzw. 50 Halbbilder pro Sekunde. (PAL)
  • Dagegen wählte man in Nord- und Südamerika bzw. Ostasien aufgrund der Netzfrequenz des öffentlichen Stromnetzes von 60 Hertz eine Bildfrequenz von 30 Vollbilder bzw. 60 Halbbilder pro Sekunde. (NTSC)
Auch bei heutigen Fernsehformaten in High Definition HD wird zwischen 50 Bilder/Sekunde und 60 Bilder/Sekunde unterschieden. Wobei moderne Mediaplayer beide Bildraten korrekt verarbeiten und wiedergeben können. Die unterschiedlichen Abspielraten können allerdings in der Videobearbeitung Probleme bereiten. Unkorrigiert ergeben:
  • 25fps-Original Wiedergabe mit 30fps: 1.2x schneller, d.h. 60 minütiger Film bereits in 50 Minuten abgespielt: Menschen sprechen comicartig
  • 30fps-Original Wiedergabe mit 25fps: 1.2x langsamer, d.h.60 minütiger Film erst in 72 Minuten abgespielt: Männer mit Bass, Frauen mit Stimmbruch

3.5 Elektromagnetische Wellen und Schallwellen

Elektromagnetische Wellen

Schallwellen dagegen stellen die Ausbreitung bzw. die hörbaren Schwingungen von Druck- und Dichteschwankungen in einem elastischen Medium (Gase, Flüssigkeiten, Festkörper) dar.

3.6 Additives und Subtraktives Farbmodell

Additive Farbmischung: RGB = Rot/Grün/Blau. Fernseher, PC-Bildschirm, Beamer etc. Die Komplementärfarben von RGB sind CMY. Rot/Grün/Blau zu gleichen Teilen gemischt ergibt Weiss.

Subtraktive Farbmischung: CMY(K) = Cyan/Magenta/Yellow/(Keycolor meist Schwarz). Drucker, Malen, Analog-Kino mit Filmstreifen etc. Die Komplementärfarben von CMY sind RGB. Cyan/Magenta/Yellow zu gleichen Teilen gemischt ergibt Schwarz.

Farbwahl in z.B. Adobe Photoshop:

3.7 Vom RGB-Bild zum Graustufenbild

In bestimmten Fällen ist es nötig, das Farbbild in ein Graustufenbild umzuwandeln. Zum Beispiel bei dem im nächsten Abschnitt behandelten Farbmodel YCbCr.
Bei der Umwandlung werden die drei Farbanteile RGB verschieden gewichtet. Dies hat einen historischen Hintergrund: Der frühzeitliche Mensch als Jäger und Sammler war vor allem auf eine hohe Auflösung im Grünbereich (Wälder, Wiesen etc.) angewiesen, um Beute oder herannahende Gefahr besser erkennen zu können. Die Farbe Blau war da eher seltener und darum weniger wichtig. Da diese Aspekte des Farbensehens des menschlichen Auges berücksichtigt werden müssen. So wird beispielsweise Grün heller wahrgenommen als Rot, dieses wiederum heller als Blau. Diese unterschiedliche Gewichtung wird in folgender Umrechnungsformel berücksichtigt: Luminanz (Y) = 0.3 x Rot + 0.6 x Grün + 0.1 x Blau

3.8 Das Helligkeits-Farbigkeits-Modell YCbCr

Das YCbCr-Helligkeits-Farbigkeits-Modell (gemäss CCIR-601 bzw. IEC 601-Standard) wurde für das Digitalfernsehen entwickelt. Ausserdem wird es für digitale Bild- und Videoaufzeichnung, bei JPG-Bildern, MPEG-Videos und damit auch bei DVDs, sowie den meisten anderen digitalen Videoformaten verwendet. Es teilt die Farbinformation in die (Grund-)Helligkeit Y und die Farbigkeit, bestehend aus den zwei Farbkomponenten Cb (Blue-Yellow Chrominance) und Cr (Red-Green Chrominance) auf.

Die Helligkeit entspricht der Hellempfindlichkeit des Auges, die im grünen Spektralbereich am grössten ist. Chrominance oder kurz Chroma bedeutet Buntheit.

Die unterschiedliche Wahrnehmung von Y gegenüber den Cb- und Cr-Kanälen entspricht der Entwicklung der Farb- und Helligkeitsverteilung in der Natur: Im Laufe der Evolution hat sich der menschliche Sehsinn daran angepasst. Das Auge kann geringe Helligkeitsunterschiede besser erkennen als kleine Farbtonunterschiede, und diese wiederum besser als kleine Farbsättigungsunterschiede. So ist ein Text grau auf schwarz geschrieben gut zu lesen, blau auf rot geschrieben bei gleicher Grundhelligkeit jedoch nur sehr schlecht.

Die Analogie zum menschlichen Sehsinn wird für einen grossen Vorteil von YCbCr genutzt: die Farbunterabtastung (engl. chroma subsampling). Dabei wird die Abtastrate und damit die Datenmenge der Chrominanz-Kanäle Cb und Cr gegenüber der Abtastrate des Luminanz-Kanals Y reduziert, ohne dass es zu einer spürbaren Qualitätsverringerung kommt. So kann man z. B. mit der JPEG-Komprimierung eine nicht unerhebliche Datenmenge einsparen.

(Das YUV-Farbmodell der analogen Fernsehtechnik wird manchmal fälschlicherweise mit YCbCr für digitale Darstellung von Farbvideosignalen gleichgesetzt.)

Die RGB zu YCbCr-Konvertierung:

Die YCbCr zu RGB-Konvertierung:

3.9 Weitere Farbräume

Full Range RGB in 8 Bit bedeutet 0..255 Helligkeitswerte in allen drei Farbkanälen. Da aber unser Auge nicht für jede Farbe gleich empfindlich ist, werden die 3 x 8 Bits in gewissen Farbräumen etwas anders aufgeteilt. Im Television-Bereich kommen auch noch technische Aspekte hinzu, die es nicht zulassen, den ganzen Helligkeitsbereich auszunutzen, weil dann unter Umständen Übertragungseinrichtungen durch zu hohe Videosignalpegel beschädigt werden können. So definiert z.B. die ITU-R-Empfehlung REC.709 einen Bereich von 16..235 Helligkeitswerte. Man spricht dann von sendefähigem Material. AfterEffects bietet ihnen unter Effekte/Farbkorrektur den Effekt "Sendefähige Farben" an.

3.10 Bildartefakte

  • Der Moiré-Effekt (von frz. moirer, „moirieren; marmorieren“) macht sich bei der Überlagerung von regelmässigen feinen Rastern durch zusätzliche scheinbare grobe Raster bemerkbar. Diese sich ergebenden Muster, deren Aussehen den Mustern aus Interferenzen ähnlich ist, sind ein Spezialfall des Alias-Effektes durch Unterabtastung.
  • Die Blockingartefakte entstehen durch allzustarker DCT-Komprimierung bzw. Quantisierung der DCT-Koeffizienten.

3.11 Vektorgrafik und Bitmapgrafik

Beispiel Bitmap: (auch Rastergrafik oder Pixelmap genannt)

Beispiel Vektorgrafik:

Eine Vektorgrafik wird aus grafischen Primitiven wie Linien, Kreisen, Polygonen oder allgemeinen Kurven (Splines) beschrieben. Die Vektorgrafik ist verlustlos skalierbar (insbesondere beim Vergrö:ssern). Bei Schrift-Fonts handelt es sich um Vektorgrafiken.

Schriftzeichen/Font als Vektorgrafik:

3.12 Transparenzmasken und Alphakanal

Vom Matte-Painting zum Alphakanal: Matte Paintings (von engl. "matte" = Maske = Vorsatzmalerei) sind gemalte Teile von Kulissen in Filmsets, die auf Leinwand oder Glas aufgebracht wurden. Heutzutage werden fast alle Matte Paintings digital erstellt. Dazu braucht es im Bild neben den drei Farbkanälen RGB noch einen weiteren Kanal, den Alphakanal. Dieser speichert die Transparenz (Durchsichtigkeit) der einzelnen Pixel (Bildpunkte).

Durch die Informationen im Alphakanal des Vordergrundbildes werden die Pixel in den einzelnen RGB-Kanälen transparent oder deckend gesetzt.
TIFF, TGA, PNG, PSD-Formate unterstützten einen direkten Alphakanal, das JPG-Format dagegen nicht.

Spezialfall GIF: Eine Farbe (aus max. 256 Farben/8Bit) kann als Transparenz definiert werden. Der Nachteil dabei: Scharfer Maskenrand und daher Treppeneffekt beim maskierten Gegenstand. Keine Halbtransparenzen möglich.

3.13 Masken und Transparenz bei After Effects

«After Effects» ist eine typische Multimedia-Software und bietet eine präzise Kontrolle bei der kreativen Gestaltung von animierten Grafiken und visuellen Effekten in den Bereichen Film, Video, Multimedia und Internet und kann als «Photoshop» für die 4. Dimension (Zeit) betrachtet werden. «After Effects» wird hauptsächlich in der Filmpostproduktion eingesetzt. «Premiere» ist ein ähnliches Produkt von Adobe, deckt aber mit dem Videoschnitt einen etwas  anderen Aufgabenbereich ab.  Als weiteres Werkzeug wird die vom selben Hersteller die Bildbearbeitungs-Software «Photoshop» angeboten. Weitere Tools von anderen Herstellern für die Filmpostproduktion  sind z.B.: Combustion, Flame, Inferno, Toxik, Eyeon Fusion, Apple Motion, The Foundry Nuke und BlackmagicDesign Fuse. Alternativen zu AfterEffects sind rar, insbesondere wenn sie kostenlos sein müssen. Folgende unentgeltlichen Applikationen können Teilgebiete von AfterEffects abdecken: FusionFree von BlackmagicDesign und Blender.

In AfterEffects sind folgende Maskierungsarten möglich:

  • Bild mit direktem Alphakanal:
    Bild enthält 4 Kanäle nämlich Rot/Grün/Blau/Alpha (RGBA)
  • Bild mit integriertem Alphakanal (Premultiplied):
    Zusätzlich zu RGBA wird die Alphainformation noch in die Farbkanäle eingerechnet. Vollkommen transparente Bereiche werden mit einer Farbe - meist Schwarz oder Weis - vollfarbig dargestellt. Enthält das Bild z.B. noch halbtransparente Bereiche, wird die Farbe prozentual in die jeweiligen Pixel eingerechnet. Bsp.: Bei halber Deckkraft 50% der Farbe des Pixels.
  • Bild ohne eigenen Alphakanal bzw. separatem Alphakanal
    Eigene Datei mit den Transparenzinformationen
  • Masken / Traveling Mattes
    Durch einen Pfad erstellte Ausmaskierung eines Bildes (Ebenenmaske). Form und Lage der Maske kann von Bild zu Bild geändert werden
  • Keyer
    Durch das Programm erstellte Maske, sog. Keyingeffekte (Ebenentransparenz wird durch eine bestimmte Farbe definiert wie zB. bei einer Greenscreen-Aufnahme)

4. Medienformate

4.1 Web-Grafikformate

♦ JPEG, JPG: (Wird seit langem von allen Webbrowsern unterstützt. Auch heute empfiehlt es sich, für Bilder und Fotos dieses Format zu verwenden. JPEG lässt eine ordentliche Bildkompression zu und kann von allen, auch älteren Browsern, angezeigt werden. Eine zu starke Bildkompression hat eine unübersehbare Blockstruktur, sogenannte Blocking-Artefakte, zur Folge. Siehe auch DCT-Demo-App) Sorry, das JPG-File kann nicht angezeigt werden. Viele Grüsse, Dein Webbrowser.

♦ GIF, Animated GIF: (Das Graphics Interchange Format GIF ist ebenfalls ein Bildformat, das von den Webbrowsern schon immer angezeigt werden konnte, ja sogar einmal das Web-Standardbildformat war. GIF eignet sich z.B. für Logos, wegen der Einschränkung auf die 256 Farben der Farbtabelle aber weniger für Fotografien. Beim GIF-Format kann eine Transparenzfarbe zur Ausmaskierungen bestimmt werden. In diesem Bereich ist das PNG Format dem GIF-Format allerdings überlegen, weil dies nicht nur eine Transparenzfarbe, sondern einen Alphakanal zur Maskierung anbietet. GIF hat in der heutigen Zeit seine Daseinsberechtigung wegen der bisher von Konkurrenzprodukten erfolglos angefochtenen Möglichkeit, Animationen zu erstellen.) Sorry, das GIF-File kann nicht angezeigt werden. Viele Grüsse, Dein Webbrowser.

♦ PNG: (Portable Network Graphics PNG ist ein Grafikformat für Rastergrafiken mit verlustfreier Datenkompression. PNG wurde als freier Ersatz für das ältere, bis zum Jahr 2006 mit Patentforderungen belastete Graphics Interchange Format GIF entworfen. PNG unterstützt neben unterschiedlichen Farbtiefen auch Transparenz per Alphakanal.) Sorry, das PNG-File kann nicht angezeigt werden. Viele Grüsse, Dein Webbrowser.

♦ SVG: (Scalable Vector Graphics SVG ist ein Format zur Beschreibung zweidimensionaler Vektorgrafiken. SVG, das auf XML basiert, wurde erstmals im September 2001 veröffentlicht. Praktisch alle relevanten Webbrowser können einen Grossteil des Sprachumfangs darstellen. Animationen werden von SVG mittels SMIL unterstützt. Manipulationen des SVG-DOM sind mit Hilfe eingebetteter Funktionen via Skriptsprachen möglich.) Sorry, das SVG-File kann nicht angezeigt werden. Viele Grüsse, Dein Webbrowser.

♦ BMP: (Windows Bitmap BMP ist ein zweidimensionales Rastergrafikformat, welches 1990 eingeführt wurde. Es unterstützt verschiedene Farbtiefen aber keinen Transparenzkanal. Seit neuerer Zeit wir das BMP Format von den Webbrowsern ebenfalls angezeigt. Da Windows-Bitmaps entweder unkomprimiert oder verlustfrei mit RLE-Komprimierung gespeichert werden, sind BMP-Dateien wesentlich grösser als andere Formate wie PNG und daher für das Internet wenig interessant.) Sorry, das BMP-File kann nicht angezeigt werden. Viele Grüsse, Dein Webbrowser.

♦ TIF: (Tagged Image File Format TIFF oder kurz TIF ist neben PDF und EPS ein wichtiges Format zum Austausch von Daten in der Druckvorstufe in Verlagen und Druckereien, weil es das von ihnen verwendete CMYK-Farbmodell unterstützt. Ausserdem kann man TIFF-Bilder mit hoher Farbtiefe von bis zu 32 Bit pro Farbkomponente speichern, weshalb TIFF gern zum Datenaustausch bei der RAW-Konvertierung verwendet wird. Im Internet wird TIFF genutzt, um Anwendern, wie etwa Verlagen, hochaufgelöste Bilder in druckfähiger, verlustfreier Qualität zur Verfügung zu stellen. Dabei wird in Kauf genommen, dass diese Dateien ein Mehrfaches der Grösse eines verlustbehaftet komprimierten JPEG-Bildes haben. TIFF hat sich so als Quasi-Standard für Bilder mit hoher Qualität etabliert. Webbrowser des Jahrgangs 2018 und früher konnten TIF-Bilder noch nicht anzeigen. Hier sollte ich ein TIF-File anzeigen. Aber Sorry, dieses Format kenne ich derzeit (noch) nicht. Viele Grüsse, Dein Webbrowser.

♦ PSD: (Bisher und vermutlich auch in Zukunft kein Web-Grafikformat! Das Photoshop Document (PSD) ist ein proprietäres Bildformat, das in Adobes Bildbearbeitungsprogramm Photoshop zur Anwendung kommt. Das Format enthält unter anderem Alphakanal, Bildebenen etc. und es werden verschiedene Farbräume unterstützt. Falls Sie hier nur einen leeren grauen Balken sehen, bedeutet dies, dass dieser Webbrowser das Format PSD nicht darstellen kann.) Hier sollte ich ein PSD-File anzeigen. Aber Sorry, dieses Format kenne ich derzeit (noch) nicht. Viele Grüsse, Dein Webbrowser.

4.2 Historische Fernsehnormen in analogem SD (PAL, NTSC, SECAM)

  • SD Standard Definition
  • NTSC National Televisions System Committee
    Einführung: SW ca. 1942, Color ca.1953
    Verbreitung: Nord-Südamerika Ostasien
    Bemerkungen: Bei Funk/Kabelverbreitung mögliche Farbtonveränderungen (Never the same Color)
  • PAL Phase Alternating Line
    Einführung: SW ca. 1963, Color ca.1967
    Verbreitung: Europa, Australien, Teile Asiens & Afrikas
    Bemerkungen: Spätere Norm und daher aus NTSC-Fehlern gelernt
  • SECAM Séquentiel couleur à mémoire
    Einführung: 1956
    Verbreitung: Frankreich, Ehemalige Ostblockstaaten, Russland, Teile Asiens & Afrikas
    Bemerkungen: Entwickelt aus marktprotektionistischen und politischen Gründen

4.3 Historische Fernsehnormen in digitalem SD (PAL, NTSC)

PAR = Pixel Aspect Ratio

4.4 Heutige Fernsehnormen in digitalem HD (HDTV)

FCC (Federal Communications Commission / US-Organisation)
ATSC (Advanced Television System Committee / US-Organisation, löst NTSC in den USA ab)
EBU (European Broadcasting Union)
fps: Frames per second (Bilder pro Sekunde) Im Falle von Interlaced handelt es sich eigentlich um Halbbilder
AR: Aspect Ratio (Bild Seitenverhältnis)

4.5 Next generation HD (UHD)

(Ultra High Definition Television UHDTV oder Ultra HDTV und Ultra High Definition Video UHDV)

4.6 Video-Normen und Datenraten

DV=Digital Video → Legacy consumer videotape recording
DVCAM/DVCpro → Professionelle Variante von DV
HDV=High Definition Video → Video-Bandaufzeichnung
AVCHD=Advanced Video Codec High Definition → Consumer/Prosumer-Bereich
HDCAM=High Definition CAM → Schnittstelle: SDI= Serial Digital Interface, für den Profibereich, HDTV-Produktionen, Film
XDCAM → HD-Profi-Format von SONY für den Broadcast-Bereich

4.7 Datenraten-Vergleichswerte

Angaben in Bit pro Sekunde, Bruttodatenrate!

  • Mobilfunk:
    ♦ GPRS: 115kb/s ♦ UMTS: 384 kb/s ♦ LTE: 1.2 Gb/s ♦ 5G: zukünftig bis zu 10Gb/s
  • Optische Speichermedien:
    ♦ Audio-CD: 1.4Mb/s ♦ Video-DVD: 10Mb/s ♦ BluRay: 432Mb/s
  • Universal Serial Bus:
    ♦ USB-2: 480Mb/s ♦ USB-3: 4Gb/s ♦ USB-3.1: 10Gb/s ♦ USB-3.2/USB-C: 20Gb/s ♦ USB-4: 40Gb/s
  • FireWire bzw. i.LINK oder IEEE 1394:
    ♦ Firewire-800: 800Mb/s
  • Small Computer System Interface:
    ♦ SCSI-320 (Parallel): 2.6Gb/s ♦ SAS-3 (Seriell): 12Gb/s ♦ SAS-4 (Seriell): 22.5Gb/s
  • Serial Advanced Technology Attachment:
    ♦ S-ATA: 4.8Gb/s
  • High Definition Multimedia Interface:
    ♦ HDMI 1.3: 8.2Gb/s ♦ HDMI 2.1: 38.4Gb/s
  • Apple-Thunderbolt:
    ♦ Thunderbolt-2: 20Gb/s ♦ Thunderbolt-3: 20Gb/s

4.8 Codecs und Containerformate

  • CODEC: Das Kofferwort "CoDec" bestehend aus Coder und Decoder bezeichnet ein Verfahren, das Daten oder Signale digital kodiert und dekodiert. Meist werden beim Kodiervorgang die analogen Signale nicht verlustlos digitalisiert, sondern es wird eine Dynamikreduktion des analogen Signals sowie eine Datenkompression des digitalen Signals vorgenommen, die je nach Ausmass und Verfahren zu Qualitätsverlusten bei der Rückwandlung des digitalen Datenstroms in die analogen Signale führt. Bild und Ton können betroffen sein aber auch die Kontinuität der Wiedergabe.
    Beispiele zu Video-Codecs:
    ♦ Cinepak ♦ Sorenson ♦ Sorenson3 ♦ DV-PAL ♦ DV-NTSC ♦ MPEG-1 ♦ MPEG-2 ♦ MPEG-4 ♦ MPEG-4 Implementierungen DivX, Xvid und AVCHD ♦ H.261 ♦ H.263 ♦ H.264 ♦ H.265 ♦ Flashvideo FLV und F4V ♦ Theora ♦ RealVideo ♦ 3rd Generation Partnership Project für Smartphone 3GPP ♦ Windows Media Video wmv
    Beispiele zu Audio-Codecs:
    ♦ MPEG1 Layer 2 ♦ MPEG1 Layer3 → MP3 ♦ Ogg Vorbis ♦ RealAudio ♦ Windows Media Audio wma

  • CONTAINER: Container sind Behälter, der unterschiedliche Dateitypen enthalten kann. Mit dem Format wird die Art und Weise beschrieben, wie die Datenformate innerhalb des Containers angeordnet sind (innere Struktur). Audio/Videocontainerformate können zumindest einen Audio- und einen Videostream enthalten. Einige Formate ermöglichen zusätzlich die Einbettung von Untertiteln und Menüstrukturen oder anderen Inhalten.
    Beispiele zu Audio/Video-Containers:
    Microsoft AVI → Audio-Video Interleave ♦ ADOBE Flash Video ♦ Apple Quicktime mov ♦ Blu-ray Disc ♦ DVD ♦ MPEG-2 Stream ♦ RealMedia

4.9 Medienbeispiele

  • Video-DVD-Container:
    Video-Codec: MPEG2
    Mögliche Audio-Codecs: MPEG-1 Layer2 oder PCM
  • BluRay-Container:
    Mögliche Video-Codecs: H.264/MPEG4 oder AVC oder VC-1 oder MPEG2
    Mögliche Audio-Codecs: Dolby-Digital, DTS (Digital Theater System High Definition), PCM (Pulse Code Modulation)

5. Bild und Video verlustbehaftet komprimieren

Man spricht von verlustfreier Kompression oder Redundanzreduktion, wenn aus den komprimierten Daten wieder alle Originaldaten gewonnen werden können. Das ist beispielsweise bei der Kompression ausführbarer Programmdateien notwendig. Sie finden Informationen zur verlustlosen Komprimierung von Daten in den Fachartikeln zu Informationstechnik unter Verlustlose Kompression.

Bei der verlustbehafteten Kompression werden irrelevante Informationen entfernt, man spricht auch von Irrelevanzreduktion. Dabei geht ein Teil der Information aus den Originaldaten verloren, sodass aus den komprimierten Daten nicht mehr das Original rekonstruiert werden kann. Verlustbehaftete Kompression findet meist in der Bild-, Video- und Audio-Übertragung Anwendung. Die menschliche Wahrnehmung ist dabei entscheidend, welcher Anteil der Information für den Empfänger entbehrlich ist. Ein populäres Beispiel ist das Audio-Format MP3, das Frequenzmuster entfernt, die der Mensch schlecht oder gar nicht hört. Ebenso bei der Bildwahrnehmung, wo das menschliche Auge für die Helligkeitswerte wesentlich empfindlicher ist, als für die Farbanteile.

5.1 Reduzierung der Bild- oder Farbauflösung

  • Die einfachste verlustbehaftete Datenreduktion erreicht man durch eine kleinere Bildauflösung. Es fragt sich aber, ob der visuelle Verlust noch tragbar ist. Wie viele Bit's können z.B. bei einem S/W-Bild gespart werden, wenn die Auflösung von 100x100 Pixel auf 20x20 Pixel reduziert wird?
  • Eine weitere einfache, effiziente aber verlustbehaftete Datenreduktion erreicht man durch eine niedrigere Farbauflösung. Auch hier fragt sich aber, ob der visuelle Verlust noch tragbar ist. Wie viele Bit's können gespart werden, wenn die Farbauflösung eines Farbbildes von TrueColor, d.h. RGB mit 8 Bit Auflösung pro Farbkanal, auf eine Farbauflösung von 4Bit pro Farbkanal reduziert wird?

Kleinere Bildauflösung (Bild links), kleinere Farbauflösung (Bild rechts)

5.2 Reduzierung der Farbauflösung mittels einer Farbtabelle

Eine weitere Möglichkeit die Datenmenge eines Originalbildes zu reduzieren, besteht in der Verwendung einer individuell zusammengestellten Farbtabelle.

Beim GIF-Format ist es übrigens möglich, eine Farbe als Transparenzfarbe zu definieren. Ausserdem lässt sich bei Verwendung einer Bildsequenz ein animiertes GIF erstellen. Das GIF-Format kann seit Web-Urzeiten von jedem Webbrowser in jeder Browserversion verarbeitet bzw. dargestellt werden.

5.3 Die Farbunterabtastung/Subsampling

Farbunterabtastung (Color Subsampling) bezeichnet bei der Bildaufnahme ein Verfahren, das der Reduzierung der benötigten Datenmenge dient (Reduktion von Speicherplatz bzw. Übertragungsbandbreite). Voraussetzung ist die Verwendung eines geeigneten Farbmodells, das Chrominanz (Farbinformation) und Luminanz (Helligkeitsinformation) getrennt beschreiben kann. Das Das YCbCr-FarbModell, dass die Farbinformation in die Grundhelligkeit Y und die zwei Farbkomponenten Cb (Blue-Yellow Chrominance) und Cr (Red-Green Chrominance) aufteilt, scheint da geeignet.

Die Chrominanz wird mit einer gegenüber der Luminanz reduzierten Abtastrate gespeichert. Der subjektive optische Qualitätsverlust ist gering, da das menschliche Auge Farbe mit geringerer Auflösung wahrnimmt als Helligkeit. Farbunterabtastungen findet man z.B. in der Videotechnik und bei JPEG.

Ohne Unterabtastung trägt jeder Kanal mit je 100% zum Gesamtvolumen (300%) bei. Mit einer Unterabtastung von 4:1:1 bedeutet dies ein Y-Anteil=100%, Cr-Anteil=25%, Cb-Anteil=25% und somit ein Gesamtvolumen von 150%. Der Speicherbedatf hat sich nun halbiert bzw. von 300% auf 150% gesenkt.

  • Subsampling 4:4:4 Keine Unterabtastung / Keine Reduktion in
    Farbkanälen / Studiobereich
  • Subsampling 4:2:2 Unterabtastung in beiden Farbkanälen / 2:1-
    Abtastverhältnis; Norm ITU-R BT.601 / Professionelle
    Videokameras
  • Subsampling 4:1:1 Unterabtastung in beiden Farbkanälen / Die
    Chrominanz-Bandbreite und damit die horizontale
    Farbauflösung ist gegenüber dem 601-Signal halbiert / Digitale
    Consumer Kameras in TV-NTSC
  • Subsampling 4:2:0 Unterabtastung in beiden Farbkanälen,
    alternierend / Reduktion der Farbauflösung in der Vertikalen,
    da Farbdifferenzsignale zeilenweise abwechselnd und nicht in
    jeder Zeile gleichzeitig Übertragen werden / Digitale
    Consumer Kameras in TV-PAL

5.4 JPG-Bildkomprimierung mit DCT (Discrete Cosine Transformation)

Die diskrete Kosinustransformation DCT (Discrete Cosine Transformation) ist eine Transformation der numerischen Mathematik. Sie wird unter anderem für die verlustbehaftete Kompression von Audio- und Bilddaten verwendet. (JPG-Bildformat, AAC-Audioformat)

Die eigentliche Datenreduktion wird durch ein RLC und VLC bewirkt. DCT ist eigentlich nur dafür da, die Pixelwerte auf eine effektive Datenreduktion vorzubereiten:

  • 1. Schritt: Als vorbereitenden Schritt wird das RGB-Bild in seinen Luminanzanteil und den beiden Crominanzanteile umgewandelt. Danach wird die Auflösung in den beiden Chrominanzkanälen reduziert. (Siehe Farbmodelle und Unterabtastung)
  • 2. Schritt: Das Bild (Luminanz- bzw. Chrominanzkanäle) wird nun in 8x8 Pixelblöcke aufgeteilt. Jeder dieser Pixelblöcke wird separat weiterverarbeitet. (Siehe Bild: Originalwerte im 8x8 Block - Die Zahlen entsprechen den Helligkeitswerten des Pixelblocks)
  • 3. Schritt: Diskrete Kosinus Transformation (Siehe Bild: DCT-transformierte Werte). Die 8x8 Wertematrix wird nun vom Bildbereich in den sogenannten Frequenzbereich transformiert. Im Bildbereich prägen Unterschiede in den Helligkeitswerten die Wertematrix, wohingegen im Frequenzbereich die Schnelligkeit der Helligkeitsänderungen entscheidend sind. (Etwas vereinfacht ausgedrückt: Scharfe Bilder ergeben schnelle Helligkeitsänderungen und damit viele hohe und unterschiedliche DCT-Werte, unscharfe langsamere und somit tiefere und weniger unterschiedliche DCT-Werte.)
  • 4. Schritt: Die DCT-transformierten Werte werden nun quantisiert. Unter Quantisierung ist etwa dasselbe zu verstehen, wie das Notenrunden bei Schulprüfungen: Wenn die Schulnote mit einer Genauigkeit von 1/10 festgehalten wird, hat man mehr mögliche Notenwerte als wenn die Note auf 0.5 gerundet wird. Allerdings verliert man mit der gröberen, weil ungenaueren 0.5-er Notenskala auch an Aussagekraft. Dasselbe gilt für die quantisierten DCT-Werte (Siehe Bild: Quantisierte Werte). Bis jetzt hat man allerdings noch keine eigentliche Datenreduktion erreicht.
  • Wie geht's weiter: Abhängig von der Stärke der Quantisierung der DCT-Werte (im Extremfall werden die meisten Werte 0) erhält die 8x8-Matrix eine geeignete Form, für eine anschliesend effiziente RL-Codierung (RLC) und zusaätzlich VL-Codierung (VLC). (RLC und VLC werden übrigens in den Fachartikeln zu Informationstechnik unter Verlustlose Kompression erklärt.)

Noch eine Bemerkung zur diskrete Kosinus Transformation: Im Extremfall, wenn ein 8x8-Pixelblock nur aus einer einzigen Farbe besteht, wird nach der DC-Transformation nur die erste DCT-Koeffiziente links oben einen Wert enthalten und alle anderen 255 Werte werden 0 sein. RLC ist dann besonders wirksam. Im Umkehrschluss: Wenn die Quantisierung sehr stark ausfällt, wird ein 8x8 Pixelblock bei der Rücktransformation nur noch wenige, gleichartige Farbwerte aufweisen. Man nent das Blocking-Effekt.

5.5 Die Quantisierung bei DCT erklärt am Beispiel von Schulnoten

  • 51 unterschiedliche Noten bedeutet 6 Bit pro Note
  • 11 unterschiedliche Noten bedeutet 4 Bit pro Note

Mit nur 11 unterschiedlichen Noten erreicht man eine Speicherersparnis von 33% gegenüber der Variante mit 51 unterschiedlichen Noten. Allerdings ergibt sich auch ein Informationsverlust. Aus den gerundeten Noten ist nicht mehr ersichtlich, dass Nicole fast eine halbe Note höher liegt als Jonas. Ähnlich bei Susi, die zwar nur 1/10 höher liegt, gerundet aber eine um eine halbe Note höhere Bewertung erhält.

5.6 Interframe Komprimierung

Darunter versteht man die Datenreduktion innerhalb einer Bildfolge unter Ausnutzung von Ähnlichkeiten in nacheinander folgenden Bildern (Differenzbilder). Wenig Bewegung bedeutet eine hohe Datenreduktion. Dies ist eigentlich eine verlustlose Komprimierung. Meist wird aber bei einer Interframekomprimierung noch zusätzlich eine verlustbehaftete Komprimierung durchgeführt.

5.7 Die GOP-Sequenz

GOP bedeutet Group of Pictures



Weitere Datenreduktionsverfahren im Bild, Video und Tonbereich entnehme man der entsprechenden Fachiteratur.