3. Kamera

Die Kamera stellt das Herzstück einer jeden Filmproduktion dar. Seit über 130 Jahren begleitet uns dieses technische Pendant zum menschlichen Auge und ermöglicht uns nicht nur einzelne Momentaufnahmen-, sondern ganze Szenen einzufangen.

Seit den frühen Anfängen der Filmgeschichte hat sich viel verändert. Der größte Umschwung war zu Beginn der Jahrtausendwende, wo digitale Sensoren stetig populärer wurden und im Laufe der Jahre der klassischen analogen Filmkamera eine immer größere Konkurrenz wurden. Einen wesentlichen Anteil daran hatte sicherlich die Kamera ALEXA von ARRI, welche 2010 auf den Markt kam und seitdem zu einem Meilenstein der Kamera- und Film-Industrie wurde.

Aber auch außerhalb der großen Produktionen hat sich viel getan. Mit dem frühen Wechsel auf spiegellosen Systemkameras (SLR) hat Sony bereits 2013 eine Kehrtwende im Consumer-Bereich eingeleitet, den andere Hersteller lange Zeit nicht anerkennen wollten. Rund acht Jahre später sind alle führenden Kamerahersteller ebenfalls auf diesen Zug mit aufgesprungen und inzwischen haben die DSLM (Digital Single Lens Mirrorless) Kameras ihre älteren DSLR (Digital Single-Lens Reflex) Kamera-Brüder längst überflügelt.

Speziell mit der letzten Generation an Spiegellosen Kameras sind die Welten der Fotografie und Videografie extrem eng zusammengewachsen. Nie zuvor war es so einfach, mit einer „normalen“ Fotokamera solch hochwertiges Bewegtbild aufzunehmen, wie es z. B. mit der Canon EOS R5, Sony Alpha 1, Panasonic S1H oder Nikon Z7 möglich ist, um nur einige der vielen Beispiele zu nennen.

Entsprechend soll es in diesem Leitfaden ausschließlich um die neuere Technik der DSLM-Kameras gehen und deren Möglichkeiten, sowie die Vor- und Nachteile beleuchten.

3.1 Bildqualität

Die Bildqualität einer Kamera wird für die meisten Videografen, egal ob Laie oder Profi, eines der ausschlaggebenden Kriterien sein. Dabei ist die Bildqualität gar nicht so leicht zu bestimmten. Schließlich hängt diese von vielen verschiedener Faktoren ab.

Eine große Rolle spielt der eigentliche Sensor einer jeden Kamera. Aber ebenso der Bildprozessor, der die Bildsignale in ein für uns sichtbares Bild umwandelt, die verwendete Bildkomprimierung, das gewählte Bildprofil und weitere Aspekte beeinflussen allesamt die letztendliche Bildqualität. Einen vielleicht noch größeren Einfluss auf die Bildqualität hat jedoch das verwendete Objektiv. Die Faszination rund um das Thema der Objektive wird später noch in Kapitel 4 erläutert.

Im Laufe dieses Kapitels werden die wichtigsten Aspekte der Bildqualität auf der Sensorebene besprochen. So kann jeder Nutzer selbst erkennen, welche Vor- und Nachteile eines der vielen Kameramodelle auf dem Markt hat und welche Kamera schlussendlich eine gute Wahl für das jeweilige Projekt darstellt.

 

3.1.1 Sensor, Bayer-Pattern und Bildprozessor

Zuerst sollten wir uns dem Herzstück einer jeden Kamera widmen: dem Sensor. Dieser hat unbestreitbar den größten Einfluss auf die schlussendliche Bildqualität. In den aktuellen DSLM-Kameras werden ausschließlich CMOS-Sensoren verbaut.

3-1: Bayer-Pattern auf einem CMOS-Sensor Quelle: Cburnett / Wikipedia.de

Doch wie funktionieren diese CMOS-Sensoren überhaupt? Ganz simpel ausgedrückt, ist ein CMOS-Sensor ein lichtempfindliches Bauteil, welches das auf sich fallende Licht in Spannung umsetzt. Das geschieht millionenfach auf einem Sensor. Jeder dieser kleinen Punkte, welche das einfallende Licht in eine elektrische Spannung umwandeln, wird auch Pixel genannt. Jeder Pixel misst also die Helligkeit. So kann der CMOS-Sensor zwischen Hell und Dunkel unterscheiden, nicht aber zwischen verschiedenen Farbwerten.

Damit der Sensor auch Farben „sehen“ kann, werden vor den einzelnen Pixeln Farbfilter vorgeschaltet, die das Licht in jeweils eine der Primärfarben Rot, Grün oder Blau (RGB) aufteilen. Für diese Aufteilung wird in den allermeisten Fällen das sogenannte Bayern-Pattern verwendet. Dieses Bayern-Pattern unterteilt den Sensor in 25 % rote Pixel, 25 % blaue Pixel und 50 % grüne Pixel. Der Grund, wieso grüne Pixel doppelt so häufig vorkommen, liegt an unserem menschlichen Auge. Dieses ist bei Tageslicht vor allem für die grünen Wellenlänger empfänglich. Diese Eigenschaft soll durch das Bayer-Pattern übernommen werden.

Mit dieser Aufteilung können nun alle Primärfarben von unserem CMOS-Sensor erkannt und aufgenommen werden. Da jeder Pixel aber nur eine Farbe sieht, müssen die vorhandenen Helligkeits- und Farbinformationen der fehlenden Farbwerte interpoliert werden. Für die grünen Werte fehlen 50 % der Informationen und für die blauen und roten Werte ganze 75 %. Diese Interpolation besteht aus extrem komplexen Algorithmen und ist essenziell für das finale Bildergebnis. Denn genau genommen haben Sensoren mit einem Bayer-Pattern nur grob ein Viertel der eigentlichen Auflösung. Zumindest was die Farbwerte betrifft.

CMOS-Sensoren sind mittlerweile in den unterschiedlichsten Geräten und Größen zu finden. In den modernen Smartphones sind meisten Sensoren mit einer Größe von 1/3,2“ (15,30 mm² Fläche) bis circa 2/3“ (58,08 mm² Fläche) zu finden. Vergleichen wir das mit einem Vollformat-Sensor (oft auch Kleinbild genannt), der eine Gesamtfläche von 864 mm² hat, merken wir schnell, welche Unterschiede es in der Größe der CMOS-Sensoren gibt. Welche Auswirkungen diese Größenunterschiede im Detail haben können, besprechen wir in Kapitel 3.1.3.1.

Neben dem weitverbreitetem Vollformat gibt es noch einige weitere, sehr verbreitete Sensorgrößen, welche oft in Kameras vorzufinden sind.

Die gängigsten Größen sind die Micro-Four-Thirds-Sensoren (z. B. Panasonic GH5 oder Blackmagic Pocket Cinema Camera 4k), die APS-C Sensoren (z. B. Canon C70, Sony Alpha 6600) und die bereits erwähnten Vollformat Sensoren (Sony Alpha 1, Canon EOS R5, Panasonic S1H), welche lange Zeit dem Profi-Segment vorbehalten waren. Jedoch sind diese in den letzten Jahren immer erschwinglicher und dadurch interessanter für den Hobby- und Semi-Profi Bereich geworden.

Abbildung 3-2: Bildsensoren im Größenvergleich, Seitenlängen in mm, Fläche in mm² Quelle: Andreas Volz / Webdigital.de

Ein wichtiger Aspekt, welcher oftmals überschaut wird, ist der Einfluss des Bildprozessors auf das finale Bild. Wissen Sie, was Panasonic, Blackmagic Nikon, Fuji und Sony gemeinsam haben? Jeder dieser Kamerahersteller nutzt Sensoren, welche von Sony entworfen und produziert werden.

Wie kann es also sein, dass so viele der führenden Kamera Hersteller ihre Sensoren bei dem gleichen Sensor Hersteller einkaufen, jedoch trotzdem so große Unterschiede in der Bildqualität, den Farben und dem Feature-Set der jeweiligen Kameras gibt?

Richtig. Es liegt am jeweiligen Bildprozessor und der Art und Weise, wie dieser die anliegenden elektrischen Spannungen an jedem Pixel interpretiert und verarbeitet. Das ist sozusagen die „geheime Zutat“ eines jeden Kameraherstellers.

Ein gutes Beispiel ist hier die deutsche Firma ARRI, welche mit ihren ARRI-ALEXA-Kameras und deren besonderen Look bereits seit Jahrzehnten in Hollywood die Messlatte hochhalten. Aber was genau macht ARRI nun anders? Das ist leider gar nicht so einfach zu beantworten, denn die Hersteller lassen sich hier nicht gerne in die Karten schauen. Es gibt verschiedene Ansätze, welche die Hersteller hier angehen können. Der Farblook von ARRI strebt nicht unbedingt auf eine perfekte Farbreproduktion an, sondern emuliert eher die Charakteristiken der alten Filmkameras. Im Grunde ist das Thema rund um das Buzzword der „Color Science“ ein sehr heikles und stark umstrittenes Thema.

Wichtig ist jedoch zu wissen, dass jedes einzelne Bild und jeder Pixel durch den Bildprozessor „beeinflusst“ wird. Oft ist selbst bei einer Aufnahme im RAW-Format ein Rauschreduzierung aktiv, welche man nicht in den Menüs oder Einstellungen der Kamera deaktivieren oder beeinflussen kann. Diese Ebene der Bildverarbeitung ist für den Endverbraucher leider sehr intransparent. Im Grunde zählt aber nur das Endergebnis. Wie die einzelnen Hersteller das Ergebnis erreichen, ist für uns eher zweitrangig.

 

3.1.2 Seitenverhältnis

Abbildung 3-3: 16:9 Sensorbereich aus 4:3 Sensor Quelle: Eigene Darstellung

Die meisten der Sensoren werden in einem 3:2 oder 4:3 Formfaktor produziert. Das gängigste Filmformat für unsere Fernseher und PC-Monitore und so für 99 % des Contents, ist jedoch im Verhältnis von 16:9. Um eben dieses Format zu bekommen, schneiden die meisten Sensoren oben und unten einen großen Teil der Sensorfläche ab und lesen somit nur einen kleineren Bereich im 16:9 Seitenverhältnis vom Sensor ab. Wie in Abbildung 3-3 zu sehen, wird aus einem 4:3 Sensor-Format (schwarzer Bereich) ein 16:9 Format (gelber Bereich) aufgezeichnet.

Wenn Kameras die volle Sensorfläche auslesen, wird dies oftmals als Open-Gate bezeichnet. Allen voran können das teure Cinema-Kameras wie z. B. diverse ARRI-, Sony Venice- oder RED Kameras. Aber auch im niedrigeren Preisbereich gibt es Kameras, die Open-Gate aufnehmen können. Die wohl bekannteste ist die Panasonic S1H oder die oben erwähnte Panasonic GH5s.

Neben 16:9 (1,78:1) gibt es noch ein weiteres, sehr bekanntes Bildformat. Das sogenannte Cinema-Scope hat ein Bildverhältnis von 2,35 bis 2,4:1.

Abbildung 3‑4: Verschiedene Bildformate Quelle: Eigene Darstellung

Ein kurzer historischer Exkurs: Anfang der 1950er-Jahre waren sowohl die Filme im Kino, als auch später in der Fernsehindustrie, in einem Bildformat von 4:3 (1,33:1). Das Bild im Kino war also nur größer. Da die führenden Hollywood-Studios den Alleinstellungswert des Kinos gefährdet sahen und sich stärker von den Fernsehfilmen abheben wollten, wurde in den 50ern das Cinema-Scope Verfahren eingeführt. Durch ein spezielles anamorphotisches Objektiv wurde das Bild bei der Aufnahme in der Breite gestaucht und später bei der Wiedergabe im Kino durch ein weiteres Objektiv am Projektor in der Breite gestreckt. Dadurch gelang eine Filmwiedergabe im Breitbildformat (2,35:1). Seit diesem Moment assoziieren wir das Breitbildformat zusammen mit Kino. In Kapitel 4.7 gehen wir noch genauer auf die Unterschiede, Vor- und Nachteile von anamorphotischen Objektiven ein.

 

 

3.1.3 Auflösung

Im vorherigen Kapitel haben wir bereits besprochen, wie ein Sensor aufgebaut ist und dass dieser aus Millionen von einzelnen Pixeln besteht. Einfach ausgedrückt ergibt sich aus der Summe aller auf dem Sensor vorhandenen Pixel die Auflösung oder das Auflösungsvermögen des jeweiligen Sensors. Je mehr Pixel auf dem Sensor sind, desto feiner wird das Bild gerastert. Dadurch können feinere Strukturen und Unterschiede im Bild genauer abgetastet (oder eben aufgelöst) werden. In den meisten Fällen hat das einen höheren Detailgrad als Resultat. Hat ein Sensor also eine Auflösung von 20 Megapixel (kurz MP), dann befinden sich 20.000.000 einzelner Pixel auf diesem Sensor. Ein Sensor mit 60 MP hingegen, hätte die vierfache Pixelanzahl, dadurch eine engere Rasterung und somit ein höheres Auflösungsvermögen.

Im Bereich der Videografie versteht man unter der Auflösung jedoch meistens etwas anderes. Schlagwörter wie Full-HD, 4k oder mittlerweile sogar 8k haben die meisten bereits gehört. Damit ist die eigentliche Videoauflösung gemeint. Ein Full-HD Video hat eine Auflösung von 1920 x 1080 Pixel. Um ein Video im Full-HD Format aufnehmen zu können, braucht der Sensor also mindestens eine Auflösung von 2.073.600 Pixel. Bei 4k hingegen, welches eine Auflösung von 3840 x 2160 hat, werden bereits 8.294.400 Pixel benötigt. Also genau das Vierfache der Full-HD-Auflösung. Ebenso verhält es sich mit 8k, welches wiederum eine vierfache Auflösung von 4k hat. 33.1777.600 Pixel werden für die 7680 x 4320 Auflösung des 8k Bildformats benötigt.

Abbildung 3-5: Hohe Auflösung und geringe Auflösung Quelle: Eigene Darstellung

Das sind jetzt erst mal viele Zahlen. Wichtig ist jedoch zu wissen, dass sich mit jedem Sprung in den gängigen Auflösungsformaten die Pixelanzahl vervierfacht. Durch diese deutliche höhere Auflösung bekommt man im Endergebnis entsprechend auch ein Video mit einen höheren Detailgrad. Jedoch sind die Dateien dadurch entsprechend auch deutlich größer.

Ein weiterer wichtiger Punkt ist, dass jeder Sensor eine bestimmte Pixelzahl erreichen muss, um in der jeweiligen Auflösung aufnehmen zu können. Ein Sensor mit einer Auflösung von 20 MP hat zwar keine Probleme damit ein 4k Video aufzunehmen, jedoch fehlen für die 8k Video-Auflösung rund 13 MP.

 

3.1.3.1 Pixelgröße & Low-Light Potenzial

Um die Pixelgröße (auch Pixel-Pitch genannt) bestimmen zu können, kommt es auf die vorhandene Größe des Sensors und die Anzahl an Pixel auf selbigen an. Genauer gesagt beschreibt der Pixel-Pitch die Distanz von der Mitte eines Pixels zu der Mitte des nächsten Pixels.

Nehmen wir als Beispiel die Panasonic GH5, welche einen 4/3“ (17,30 x 13,00 mm) CMOS-Sensor mit einer Auflösung von 5.184 x 3.888 Pixeln. Rechnen wir die Länge des Sensors geteilt durch die Pixelanzahl der langen Seite (17,3 / 5.184), so ergibt sich eine Größe von 0,00333 mm oder 3,33 μm (ein Mikrometer entspricht ein tausendstel Millimeter). Die Rechnung funktioniert natürlich auch mir der Breite des Sensors (13,0 / 3.888 = 3,33 μm).

Nehmen wir an, dass die GH5 keinen Micro-Four-Thirds (4/3“) Sensor hat, sondern einen Vollformat-Sensor, welcher 35.6 x 23.8 mm misst. Hier wäre jeder einzelne Pixel 6,86 μm groß. Es hätte also jeder einzelne Pixel grob das Vierfache (jeweils knapp das doppelte in der Horizontalen und Vertikalen) der Fläche zur Verfügung. Die Sony Alpha 7S III hat auf ihrem Vollformatsensor nur 12.1 MP und kommt somit auf einen Pixel-Pitch von 8,4 μm. Damit hat die Sony sogar leicht größere Pixel als die beliebte ARRI Alexa Mini LF mit einem Pixel-Pitch von 8,1 μm.

Aber was sagt diese Pixelgröße überhaupt aus und was macht es in der Praxis für einen Unterschied? Zu dieser Frage gibt es keine perfekte Antwort. Der wesentliche Vorteil ist, dass größere Pixel mehr Licht empfangen und dadurch ein stärkeres elektronisches Signal ausgelesen wird. Dadurch wird das Rauschverhalten verbessert und somit sind auch rauscharme Aufnahmen, bei schlechteren Lichtverhältnissen möglich. Dazu im Kapitel 3.2.3 mehr.

Wir sprechen im späteren Verlauf noch ausführlich über das Thema Rauschen (auch Korn, Noise, oder Grain genannt). Wichtig ist jedoch zu wissen, dass das Bildrauschen im Verhältnis zu der Pixelgröße entsteht. Haben wir also viele, kleinere Pixel, ist unser vorhandenes Bildrauschen entsprechend auch kleiner. Jedoch ist es hier vor allem sehr wichtig zu sehen, wie genau der Sensor seine Daten ausliest und welche Methoden er dafür benutzt. Mehr zum Thema Oversampling und Pixel-Binning im folgenden Kapitel 3.1.2.2.

Schlussendlich kann man also sagen, dass die eigentliche Sensorgröße der wichtigere Faktor ist, da bei einer gleichbleibenden oder höheren Pixelanzahl, die einzelne Pixelgröße oft sogar zunimmt und somit von dem positiven Effekt der größeren Pixel und z. B. des Oversamplings profitiert werden kann.

 

3.1.3.2 Oversampling, Pixel-Binning, Line-Skipping & Sensor-Crop

Einige der neuen Kameras nehmen mittlerweile in einem 8k Format auf. Wie bereits im Kapitel 3.1.2 besprochen, braucht man für die Auflösung von 7680 x 4320 px (kurz für Pixel) mindestens 33.2 MP. Im Beispiel der Sony Alpha 1, hat der Sensor jedoch eine 16:9 Auflösung von 8.760 x 4.864 px. Der Sensor hat also gute 9,4 Megapixel mehr als für die reine 8k Auflösung notwendig. Schauen wir uns das für die Auflösung von 4k an (3840 x 2160, also mindestens 8.3 Mp), so hat die Sony Alpha 1 satte 34,3 MP mehr, als für 4k benötigt.

Abbildung 3-6: 8k Sensor-Crop auf 4k Quelle: Eigene Darstellung

Was also tun mit der ganzen zusätzlichen Auflösung? Hier gibt es verschiedene Herangehensweisen, die alle unterschiedlich Komplex und rechenaufwendig sind. Grob kann man sagen, je rechenaufwendiger die Methode, desto besser ist die finale Bildqualität, die dadurch resultiert.

Die einfachste Methode für die Kamerahersteller ist es, nur genau den Ausschnitt des Sensors auszulesen, der die benötigte Pixelanzahl für jeweilige Auflösung (z. B. 4k) hat. Das Problem hierbei ist jedoch, dass nur ein deutlich kleinerer Bereich des Sensors verwendet wird. Dadurch entsteht ein Crop-Faktor, welcher die Brennweite des Objektivs verändert. Kurz gesagt wird zum Beispiel aus einem 50 mm Objektiv ein 100 mm Objektiv, da nur die Mitte des Bildbereiches ausgelesen wird. Das kann positiv oder negativ sein. In dem meisten Fällen ist das aber ein unerwünschter Effekt. Mehr zum Thema Crop-Faktor im Kapitel 6.3. Darüber hinaus verschenkt diese Methode des Croppings viel Potenzial. Immerhin hat der Sensor ja deutlich mehr Pixel zur Verfügung, welche aber schlicht nicht berücksichtig werden. Nicht nur verschenkt diese Methode viel Potenzial, sie verschlechtert die Bildqualität sogar noch, da das Bild um den Crop-Faktor vergrößert wird und somit auch das vorhandene Rauschen. Dadurch muss vom Bildprozessor aber nicht viel berechnet werden und ist entsprechend einfach umsetzbar, zulasten der finalen Bildqualität. Der Sensor-Crop hat also viele Nachteile und stellt somit die schlechteste aller Möglichkeiten dar.

Die Methode des Line-Skippings ist ebenfalls recht einfach zu erklären. Ganz simpel ausgedrückt, nutzt die jeweilige Kamera nur jede zweite Horizontale und / oder vertikale Pixel-Reihe und halbiert oder viertelt dadurch ihre Pixelanzahl. So wird aus einem 8k Sensor mit einer Auflösung von 8.760 x 4.864 px durch vertikales und horizontales Line-Skipping ein Sensor mit 4380 x 2432 px. Somit ist dieser deutlich näher an der 4k Auflösung. Dadurch muss die Kamera weniger Pixel auslesen und gegebenenfalls zusammenrechnen, was wiederum Rechenleistung spart. Das ist natürlich eine stark vereinfachte Erklärung. Im Hintergrund betreiben moderne Kameras extrem komplexe und individuelle Berechnungen, um die Bildqualität in jeder Situation möglichst hochzuhalten.

Der Vorteil von Line-Skipping im Vergleich zum reinen Sensor-Crop liegt darin, dass weiterhin die volle Sensorfläche genutzt wird und somit kein Crop-Faktor entsteht, der den Sensorbereich verändert und das Bildrauschen dadurch vergrößert. Jedoch profitiert die Kamera nicht durch die zusätzlich vorhandenen Pixel, da diese nicht ausgelesen oder anderweitig berücksichtigt werden. Das Line-Skipping ist zwar etwas besser als der reine Sensor-Crop, jedoch schlechter als Pixel-Binning oder Oversampling.

Das Pixel-Binning ist die Erste der besprochenen Methoden, welche auf die volle Auflösung des Sensors nutzt. Bei diesem Verfahren werden die vorhandenen Pixel in größere Gruppen zusammengefasst. So werden aus z. B. 16 einzelner Pixel 4 größere Pixel. Wieso werden jetzt 16 Pixel zu 4 zusammengefasst und nicht 4 Pixel zu einem einzigen? Das hat mit dem Bayer-Pattern des Sensors zutun, welches wir bereits in Kapitel 4.1.2 besprochen haben. Hier werden also die 4 Roten, 4 Blauen und 8 Grünen Pixel zu einem größeren Roten, Blauen und zwei Grünen Pixeln zusammengefasst. Da die verschiedenen Pixel in Gruppen kombiniert werden, kann zwischen den jeweiligen Pixeln das Rauschverhalten verglichen und angeglichen werden. Das sogenannte „Noise Averaging“ (Singalmittlung) kann dadurch das Bildrauschen reduzieren und sorgt somit für ein sauberes Endergebnis. In der Praxis werden auch verschiedene Pixelanzahlen kombiniert. Es müssen also nicht zwangsläufig 16 Pixel sein. Speziell bei 8k Sensoren ergibt eine Samplesize von 16 jedoch Sinn, da wir die vorhandene Auflösung oft vierteln wollen, um auf eine annähernd native 4k Auflösung zu gelangen. Das wird von jedem Hersteller aber sehr unterschiedlich gehandhabt.

Das extrem komplexe Verfahren und die Algorithmen das Pixel-Binnings wurde in den letzten Jahren immer weiter ausgebaut und verbessert und bietet mittlerweile einen guten Kompromiss aus benötigter Rechenleistung und einem entsprechend gutem Endergebnis.

Die beste und entsprechend auf rechenintensivste Methode ist die des Oversamplings. Hierbei wird jeder vorhandene Pixel auf dem Sensor ausgelesen. Bei unserem Beispiel der Sony A1 wären das die vollen 8.760 x 4.864 Pixel (16:9). Die gesamten Pixel werden dann kleiner skaliert und Ergeben dann das kleinere 4k Bild. Der große Vorteil ist hierbei, dass die maximale Auflösung der höchstmögliche Detailgrad genutzt wird, um damit ein extrem scharfes 4k Bild zu kreieren. Ebenso wird nur ein sehr feines Bildrauschen aufgenommen, welches dann zusätzlich noch in ein kleineres Bild skaliert wird. Somit kann auch ein hochauflösender Sensor, mit kleineren Pixeln ein sehr rauscharmes Videobild erzeugen. Ein Oversampled 4k Bild (von 8k runter auf 4k) ist einem nativ aufgenommenen 4k Bild immer in Schärfe, Detailgrad und auch im Rauschverhalten überlegen.

Der Vorteil gegenüber des Pixel-Binnings ist, dass keine Algorithmen oder sonstige Berechnungen die Bildqualität beeinträchtigen können, sondern jeder Pixel einzeln ausgelesen wird. Das hat eine hohe Rechenleistung zufolge. Gerade bei vielen Pixeln, einer hohen Bild- und Bitrate, fallen hier enorme Datenmengen an, die das Oversampling des Sensors weiter erschweren. In den aller meisten Fällen verwenden Kamerahersteller eine Mischung aus diesen Methoden. Für die eine Kombination aus Auflösung und Bildrate wird Line-Skipping verwendet, für die andere Oversampling und falls man möchte, kann man auch auf den Sensor-Crop zurückgreifen.

Wichtig ist jedoch zu wissen, dass man mit Oversampling die bestmögliche Qualität bekommt. Gefolgt von Pixel-Binning, Line-Skipping und zuletzt der reine Sensor-Crop.

 

3.1.3.3 Moiré

Moiré ist ein Bildfehler, der in direkter Korrelation zu der Sensorauflösung steht. Simpel ausgedrückt entsteht Moiré dann, wenn sich zwei Raster überlagern. Also zum Beispiel ein sehr feines Karo-Muster auf einem Hemd und eben der Pixel-Raster unseres Sensors. Wenn also der Detailgrad eines Objektes oder ein Muster höher ist als die Auflösung unseres Sensors, kann es zu diesem Problem kommen.

Abbildung 3‑7: Der Moiré-Effekt Quelle: Print-Care

Zwar gibt es spezielle Low-Pass-Filter, die dieses Problem verbessern, die jedoch wiederum andere Nachteile (z. B. Detailverlust) mit sich bringen.

Generell ist dieses Problem nicht so einfach zu beheben. Entsprechend sollte man vorab schon auf die entstehen von Moiré achten und gegebenenfalls direkt reagieren. Oft genügt es bereits, wenn der Abstand, der Winkel oder der Fokus etwas verändert wird. Die beste Option: von vorneherein auf kritische Muster und Stoffe verzichten.

 

3.1.4 Bildrate

Die Bildrate, oft auch als Framerate bezeichnet, beschreibt die Anzahl an Bildern die pro Sekunde aufgenommen werden. Um einzelne Bilder als flüssiges Videobild wahrzunehmen, braucht man mindestens 24 Bilder pro Sekunde. Ab dieser Zahl nimmt das menschliche Auge die Bilder als einen flüssigen Film wahr. Da die Filmrollen früher extrem teuer waren, hat man meistens auch mit diesen 24 Bildern pro Sekunde (englisch frames per secound, kurz fps) gefilmt. Dieser Standard ist bis heute auch zum Großteil noch bestehen geblieben. Für sehr viele Leute fühlen sich diese 24 fps als cineastisch an, da wir diesen Look seit Jahrzehnten im Kino zu sehen bekommen. Wie genau sich die Bildrate auf den Bildlook auswirken kann, besprechen wir in Kapitel 4.2.1.

In der Film-Ära waren zwar ebenfalls höhere fps Zahlen möglich, jedoch hat vor allem die digitale Revolution der Kamerasensoren hier die Möglichkeiten enorm erweitert. Inzwischen gibt es viele Kameras die 4k mit bis zu 120 Bildern die Sekunde aufnehmen können. Spezielle High-Speed Kameras wie die Phantom Flex 4k können an die 1.000 fps in 4k aufzeichnen.

Es gibt immer wieder größere Diskussion in und um Hollywood, wie sich die Verwendung von anderen Framerates auf Kinofilme auswirkt und ob, oder wie man diese Einsätzen könnte. Da inzwischen nur noch wenige Filme auf Filmrollen aufgezeichnet werden, würden sich die Mehrkosten in Grenzen halten.

Aber was genau ist der Unterschied zwischen den Bildraten? In den meisten Fällen ist ein stilistisches Mittel. Filmt man mit weniger als 24 fps, ist das Bildmaterial nicht mehr flüssig und ruckelt entsprechend. Das kann jedoch ein gewünschter Effekt sein. Wenn der Hauptcharakter zum Beispiel in einer Art Fiebertraum oder unter dem Einfluss von Drogen steht, kann ein solcher Effekt gewünscht sein. Wenn man hingegen mit mehr als 24 Bildern aufnimmt. Sagen wir z. B. 96 fps, so kann das aufgenommene Material um das Vierfache (96/24 = 0,25) langsamer dargestellt werden. Wir erhalten also einen Zeitloopen-Effekt, der bei zum Beispiel bei Aktion oder Sport Szenen sehr interessant sein kann.

 

3.1.5 Farbinformationen

In Kapitel 3.1.1 haben wir darüber gesprochen, wie Kameras in der Lage sind Farbe zu erkennen. Durch die Aufteilung des Bayer-Patterns „sehen“ je 25 % der Pixel Rot und Blau und die restlichen 50 % erkennen Grün. Nach dem Auslesen der Pixel und dem Speichern der Informationen, werden die fehlenden Farbinformationen bei dem sogenannten „debayering“ interpoliert. Das klingt alles sehr technisch. Im Grund werden aus den vorhandenen Farbinformationen die fehlenden Farbwerte errechnet. Da dieses Vorgehen extrem kompliziert ist und wir als Endverbrauchen ohnehin keinen Einfluss darauf haben, ist dieser Prozess wenig interessant für uns. Wichtig für uns ist jedoch, wie viele Farbwerte vorhanden sind, wie diese gespeichert werden und wie die Farben dargestellt werden. Dazu in den folgenden Kapiteln mehr.

 

3.1.5.1 Bit-Tiefe

Kleiner Nebenexkurs für alle, die zunächst nichts mit Bits oder mit Binär anfangen können. Diese sind die Grundlage der digitalen Informationsverarbeitung und werden von PC genutzt, um zu kommunizieren. Eine Binärzahl hat genau zwei Zustände. Entweder „An“ oder „Aus“. Das kann man sich wie einen Lichtschalter vorstellen. Haben wir aber zwei Schalter hintereinander, so erhöht sich die Anzahl an möglichen Kombinationen bereits auf 4. Mit drei schalten sind wir bei 8. Und immer so weiter. Die Stellenwertigkeit von Binär ist also immer die Potenz von 2.

Abbildung 3‑8: Unterschied zwischen 6 und 8 Bit pro Farbkanal Quelle: etc.usf.edu

In der Foto- oder Videografie beschreibt die Bit-Tiefe die Anzahl an Abstufungen pro Kanal. Gehen wir also erst mal davon aus, dass unser Sensor keine Farbe sieht und nur zwei Helligkeitswerte kennt. Weiß und Schwarz. Dann hätten wir ein Bild aus zwei Werten und somit eine Bit-Tiefe von 1. Sagen wir nun aber, dass der Sensor nicht nur zwei Werte sieht, sondern noch 6 weitere Grauabstufungen. Also würde der Sensor insgesamt 8 Helligkeitsstufen unterscheiden können und hätte damit eine Bit-Tiefe von 3 (2^3 = 8).

Die allermeisten Sensoren stellen jedoch nicht nur Grauwerte dar, sondern die RGB-Farben. Daher redet man im Kontext der Bit-Tiefe auch immer von den möglichen Farbwerten. Im Videobereich speichern die meisten Consumer Kameras aktuell 8 Bit pro Farbkanal. Also 256 Abstufungen von Rot, Grün und Blau. Da diese Farbwerte auch miteinander kombiniert werden können, entstehen so 16.7 Millionen (256*256*256) möglicher Farben.

Im ersten Moment klingt das nach sehr viel. Und 16.7 Millionen ist auch bei Weitem nicht wenig! Jedoch kann es in manchen Situationen zu Problemen kommen, da nicht genügend Farbinformationen in bestimmten Bildbereichen vorhanden sind. Solche Probleme treten zum Beispiel in einem abendlichen Himmel auf, der eine große Palette an Farbnuancen bietet, welche jedoch nicht alle von der 8 Bit Farbtiefe eingefangen werden können. In solchen Fällen kommt es zu dem sogenannten Color-Banding. Da nicht genug Farbinformationen vorhanden sind (oder dargestellt werden können), gibt es sichtbare Abstufungen oder Treppen, zwischen den einzelnen Farbwerten. Erhöhen wir die Bit-Tiefe auf 10 Bit, kommen bereits auf 1024 Farbwerte pro Farbkanal und auf insgesamt 1.07 Milliarden möglicher Farbwerte! Also eine Steigerung um das 64-Fache.

Abbildung 3‑9: Sichtbare Abstufungen im Farbverlauf Quelle: Eigene Darstellung

Nehmen wir also Videomaterial anstatt mit 8 Bit mit 10 Bit auf, haben wir deutlich mehr Farbinformationen zur Verfügung. Speziell in der Post Produktion, für Farbkorrekturen, kreatives Color-Grading und auch für die Aufnahme im Log-Bildprofil (mehr dazu in Kapitel 3.1.8.2), sind 10 Bit von großem Vorteil.

Einige Kameras, zum Beispiel von RED, ARRI oder Sony, nehmen RAW-Daten mit bis zu 16 Bit auf. Also einer extremen Menge an Informationen. Mehr zum Thema RAW in Kapitel 3.1.7.2.

Abbildung 3‑10: 8 Bit Farbverlauf gegenüber 10 Bit Quelle: dynnexdrones

 

3.1.5.2 Farbunterabtastung

Abbildung 3‑11: Farbbild oben und die Aufspaltung dieses Bildes in die Komponenten Helligkeit und die beiden Farbkomponenten Quelle: Mike1024 / Wikipedia

Die Farbunterabtastung (englisch Chroma Subsampling oder Color-Subsampling) beschreibt in erste Linie ein Verfahren zur Datenreduktion. Die Luminanz und Chrominanz, also die Helligkeits- und Farbinformationen, werden unabhängig voneinander von der Kamera verarbeitet und gespeichert. Das ermöglicht eine geringere Abtastrate der Farbinformationen und somit eine Datenreduktion. Der optische Qualitätsverlust ist dadurch eher vernachlässigbar, da das menschliche Auge Farbe mit einer geringerer Auflösung wahrnimmt als Helligkeit.

Die nebenstehende Abbildung 3-11 illustriert diesen Effekt: Der Bildschärfeeindruck ist im Wesentlichen in der Helligkeitsinformation (2. Bild) enthalten. Die beiden Farbkomponenten in den unteren beiden Bildern sind in der Auflösung reduziert. Die Informationen aus diesen drei Bildern ergibt das obenstehende Farbbild, dessen reduzierte Farbauflösung nicht auffällt.
Wie wir also gut sehen können, ist es sehr wichtig, alle Helligkeitsinformationen in einem Bild zu behalten. Eine Reduktion oder Komprimierung dieser Daten würde unweigerlich zu einem wahrnehmbaren Qualitätsverlust führen. Die Farbinformationen können hingehen verringert werden, ohne, dass dabei die fehlenden Informationen zu einer schlechteren Qualität führen würden.

Aber wie passiert das nun in der Praxis und was gibt es zu beachten? Oft kann ich den Einstellungen der Kameras verschiedene Optionen für das color Subsampling ausgewählt werden. Diese lauten oft 4:2:0, 4:2:2 oder in seltenen Fällen auch 4:4:4. Aber was bedeuten diese Zahlen für die Farbunterabtastung werden immer zwei Reihen mit jeweils vier Pixeln zusammen betrachtet. Die erste Zahl beschreibt immer die Luminanz, also die Helligkeitsinformationen. Da wir diese Informationen nicht verändern wollen, ist die erste Zahl also immer die 4. Die zweite Zahl beschreibt immer die Farbinformationen für die vier Pixel der ersten Reihe. Steht dort ebenfalls eine 4, so hat jeder Pixel die vollen Farbinformationen. Steht an der zweiten Stelle jedoch eine zwei (z. B. 4:2:2), so hat nur jeder zweite Pixel Farbinformationen. Die dritte und letzte Stelle, beschreibt, wie die zweite Pixel-Zeile ihre Farbinformationen erhält. Bei einem 4:4:4 Color Subsampling hat auch die zweite Zeile jeweils die vollen Farbinformationen pro Pixel. Bei 4:2:2 werden die einzelnen Pixel, wie auch in der ersten Zeile, zu zwei größeren Pixeln zusammengefasst. Bei einem 4:2:0 Subsampling hingegen, werden die Farbinformationen der ersten Zeile auf die darunterliegenden Pixel übernommen.

 

Abbildung 3‑12: Unterschiedliche Varianten der Farbunterabtastung Quelle: Javier López / Hardzone.es

Im Vergleich zum 4:4:4 Color Subsampling kann mit 4:2:2 ca. 30 % der farbbezogenen Datenmenge und mit 4:2:0 bis zu 50 % eingespart werden.

In der Praxis haben die Einsteiger Kameras oft nur die Möglichkeit die kleinste Datenmenge aufzunehmen. Also eine 4:2:0 Farbunterabtastung. Etwas teurere Kameras (Sony 7S III, Canon R5, Panasonic GH5) nehmen zumindest bereits 4:2:2 auf. Einige Kameras (Blackmagic Cinema Pocket 4k) können auch 4:4:4 aufnehmen. Oftmals ist diese Farbabtastung jedoch verbunden mit RAW-Recording. Dazu aber in Kapitel 3.1.7.2 mehr.

Welches Color-Subsampling man schlussendlich wählt, hängt von verschiedenen Faktoren ab. Generell kann man sagen, je mehr Farbinformationen man hat, desto flexibler ist man in der Post Produktion. Jedoch sind die Dateien entsprechend größer und man braucht etwas mehr Rechenpower, um diese flüssig bearbeiten zu können. Das bietet sich speziell für große und aufwendige Produktionen, wie zum Beispiel Werbungen oder Spielfilme an.

Für Run-and-Gun Produktionen sieht man keinen Unterschied, ob das Material mit 4:4:4 oder 4:2:0 aufgenommen wurde. Da spielt das Ausgabemedium (z. B. die Komprimierung von YouTube) eine deutlich wichtigere Rolle.

Möchte man in der Post jedoch einen Color-Key einsetzen, um zum Beispiel einen Green-Screen zu entfernen, sind möglichst viele Farbinformationen von Vorteil, da diese der Software ein genaueres Arbeiten ermöglicht und so ein besseres und sauberes Resultat liefern kann.

Farbraum

Abbildung 3-13: Das menschliche Farbspektrum Quelle: BenRG / Wikipedia

Als Grundlage für einen Farbraum (englisch color gamut) dient zunächst das für uns Menschen sichtbare Licht. Dieses wird in einem Diagramm visuell dargestellt. In diesem Diagramm sind alle möglichen Mischfarben zwischen den primären Lichtfarben (Rot, Grün und Blau) enthalten. Da sich Weiß aus jeweils gleichen Teilen der Primärfarben zusammensetzt, liegt im Mittelpunkt der Darsteller der Weißpunkt.

Abbildung 3‑14: REC 709 vs DCI-P3 vs. REC 2020 Quelle: BenQ.eu

Nun ist es jedoch technisch nicht möglich, die Vielzahl an Farben mit unseren aktuellen Monitoren darzustellen. Zwar hat sich hier in den letzten Jahren einiges getan, doch hat uns das menschliche Auge immer noch einige voraus.

Deswegen gibt es spezifische Farbräume, die gewährleisten sollen, dass die benötigten Farben für Endgeräte von Kameras aufgezeichnet werden können und am Ende keine Farbnuancen fehlen.

Ein gutes Beispiel hierfür ist der sehr bekannte REC.709-Farbraum. REC.709 kommt von der „ITU-R Recommendation, Broadcast Television, number 709“, wurde im Jahr 1990 bestimmt und ist ein Farbraum, welcher speziell für Wiedergabegeräte wie Smartphones, Fernseher oder Computerbildschirme definiert wurde.

Der DCI-P3-Farbstandard wurde hingegen von der Organisation Digital Cinema Initiatives (DCI) im Jahr 2010 definiert. Dieser Farbraum wird oft in der Filmindustrie und somit im Kino verwendet. Durch die neuere Bildschirmtechnik findet dieser Farbraum auch immer öfter Einzug in unser privates Leben. Aktuelle Smartphones von Samsung, Apple, wie auch moderne Fernseher können den DCI-P3-Farbraum nahezu vollständig darstellen. In den kommenden Jahren soll im TV Bereich der neue REC.2020 Standard implementiert werden. Wie man an dem Diagramm 3-14 sehen kann, haben die verschiedenen Standards deutliche Unterschiede in ihrer Größe und somit auch in ihrem Farbvolumen. Moderne Kameras sind bereits heute in der Lage, extrem große Farbräume aufzuzeichnen. Das Problem ist das Wiedergabemedium, welche dem aktuellen Fortschritt nicht mithalten können.

Welchen Farbraum sollte man in der Kamera wählen? Die wichtigste Frage ist hier zunächst einmal, über welches Wiedergabemedium das finale Projekt ausgespielt wird. Für Kinoproduktionen ist es wichtig einen Farbraum zu wählen, welcher mindestens den DCI-P3-Farbbereich abdeckt. Landet das Material im Internet, dann genügt in den allermeisten Fällen ein kleinerer Farbraum.

Aber wieso ein kleinerer Farbraum? Verschenkt man dann nicht zusätzliche Informationen? Der Gedanke ist an sich nicht falsch. In vielen Bereichen der Videografie verhält es sich so. Man nimmt lieber etwas mehr Daten und hat somit die bestmögliche Flexibilität in der Post Produktion. Bei zu großen Farbräumen kann es jedoch zu ungewollten Problemen kommen, wenn man zum Beispiel versucht, einen aufgenommen REC.2020 Farbraum in einem REC.709 Ausgabemedium „zu stopfen“. Farben können unter Umständen stark in der Farbe, Saturierung oder den Kontrastwerten variieren.

Speziell in sehr großen Farbräumen wie REC.2020, werden zwar deutlich mehr Grüntöne aufgezeichnet, die Blau und Rottöne bleiben hingegen nahezu unverändert im Vergleich zu REC.709. Das kann dazu führen, dass bei einer Konvertierung von Filmmaterial, welches im REC.2020 Farbraum aufgezeichnet wurde, schlussendlich jedoch als REC.709 ausgegeben wird, eine deutliche Grünverschiebung entsteht. Dies kann zwar durch entsprechende „conversion LUTS“ (dazu im Kapitel 3.4.8 mehr) vermieden werden, birgt bei falscher Benutzung aber weiterhin das Risiko der Farbverfälschung.

Es gibt daher spezielle Farbräume, welche ein gleiches Verhältnis der Primärfarben haben, jedoch größer sind. Sonys S-Gamut.Cine wäre so ein Fall. Dieser deckt den kompletten DCI-P3-Farbraum ab. Somit ist dieser für Kinoproduktionen geeignet. Zwar gibt es mit dem S-Gamut3 einen deutlich größeren Farbraum, jedoch eignet sich sein „kleinerer Bruder“, deutlich besser für den Einsatz auf Consumer-Endgeräten ausgerichtet, da der größere Farbraum, dank dem gleichen Farbverhältnis, sehr leicht auf einen kleineren Farbraum reduziert werden kann, ohne dass dabei unerwünschte Farbverschiebungen auftreten.

 

3.1.6 Rolling-Shutter-Effekt und Global Shutter

Wir haben bereits ausführlich besprochen, wie ein Sensor aufgebaut ist und aus wie vielen Pixel dieser bestehen. Nun ist es ebenso interessant, wie diese Pixel ausgelesen werden.

Bei Zahlen von über 35 Millionen einzelner Pixel ist es gar nicht so einfach, diese Menge an Daten auszulesen und weiter zu verarbeiten. Denn die Pixel müssen für die jeweilige anliegende Framerate auch entsprechend oft pro Sekunde ausgelesen werden. Also sprechen wir hier bei der gängigen Framrate von 24 fps in einer 8k Auflösung immerhin von 796 Millionen ausgelesener Pixel pro Sekunde. Bei 60 fps wären es dann schon 1,99 Milliarden pro Sekunde.

Abbildung 3‑15: Belichtungsverfahren Rolling und Global Shutter im Vergleich Quelle: Baumer.com

Es wird also schnell klar, wie viel Rechenpower die Kamera für solche Datenmengen benötigt. Vor allem da noch viele weitere Berechnungen und Vorgänge stattfinden, als nur die Pixel auszulesen. Es gibt zwei verschiedene Herangehensweisen, den Sensor auszulesen. Die einfachere Variante ist es, jede einzelne Pixelreihe einzeln und ein nach der anderen auszulesen. So verteilt sich die Rechenlast etwas besser, da nicht alle Pixel gleichzeitig ausgelesen und verarbeitet werden müssen. Die zweite Möglichkeit ist es, alle Pixel gleichzeitig auszulesen. Diese Art die Pixel auszulesen, nennt man Global Shutter. Dies bedarf aber einer großen Rechenleistung und ist daher oftmals nur in High-End Videokameras, wie zum Beispiel von RED Kameras zu finden.

Aber wieso dann der extra Rechenaufwand, um alle Pixel gleichzeitig auszulesen, wenn man es nacheinander machen kann? Hier kommt das Problem der Rolling-Shutter Sensoren ins Spiel. Bei schnellen Bewegungen, Objekten oder Kameraschwenks kann es sein, dass zwischen der ersten Pixel-Reihe, die am Anfang ausgelesen wurde, und der letzten Pixelreihe, ein gewisser Versatz im Bild entsteht. Je nachdem wie lange der Sensor braucht, die gesamte Fläche einmal von oben bis unten auszulesen, ist dieser Effekt stärker sichtbar. Dieser Effekt führt dazu, dass Linien nicht mehr gerade erscheinen, sondern schräg.

Abbildung 3‑16: Bildaufnahme links mit, rechts ohne Rolling Shutter Effekt Quelle: Baumer.com

Wie ausgeprägt dieser Rolling-Shutter-Effekt ist, hängt von diversen Faktoren ab. Ein großer Faktor ist natürlich, wie leistungsfähig die Kamera an sich ist. Speziell in den letzten Jahren hat sich hier einiges getan. Die Sony Alpha 7 III im 4k eine Auslesezeit von 24,5 ms für den gesamten Sensor. 3 Jahre später braucht das größere Schwestermodell, die Sony 7S III nur noch 8.7 ms für den gesamten Sensor und schlägt somit in unmittelbarer Reichweitere der ARRI Alexa Mini LF (7.4 ms), welche jedoch gut, dass 17-fache der Sony-Kamera kostet.

Abbildung 3‑17: Animation zur Verdeutlichung der Entstehung des Rolling-Shutter-Effekts Quelle: cmglee / Wikipedia

Für die Auslesezeit sind viele verschiedene Faktoren verantwortlich. Zum einen die Auflösung in der aufgenommen wird und entsprechend die Anzahl der Pixel, welche ausgelesen werden müssen. Direkt daran gekoppelt ist natürlich auch die Framerate in der aufgenommen wird. Es macht einen enormen Unterschied, ob der Sensor 24 oder 120-mal pro Sekunde ausgelesen werden muss. Den Unterschied, der die Auflösung auf den Rolling-Shutter hat, sehen wir gut in den neueren 8k fähigen Kameras, wie die Canon R5 oder Sony A1. Letztere liest ihr 4k Bild mit 25 fps in 8.1 ms aus. Für die volle 8k mit 25 fps Auflösung benötigt sie hingegen 16.6 ms. Immer noch ein sehr gutes Ergebnis, wenn man bedenkt, dass 8k die vierfache Auflösung hat. Greift die A1 auf einen 1.5-fachen Crop-Modus zurück, reduziert sich die Zeit auf 11.1 ms in 8k 25 fps.

Ebenso spielt es eine Rolle, ob die Kamera weitere Berechnungen wie z. B. Oversampling oder Pixel-Binning vornehmen muss. Natürlich möchte man immer möglichst alle vorhandenen Pixel des Sensors verwenden, um ein besonders detailreiches Bild zu erhalten. Das kann unter Umständen jedoch zulasten des Rolling-Shutter-Effekts gehen und diesen zusätzlich verstärken.

 

3.1.7 Codecs, Container & RAW

Wenn Kameras ihre Daten verarbeiten, müssen diese Daten auch gespeichert werden. Hier wird oft von verlustfreien und verlusthaften Codecs gesprochen. Es wird jedoch immer ein Codec benötigt und die Videodateien zu speichern und wieder abspielen zu können.

Da bei 4k oder sogar 8k enormen Datenmengen anfallen, werden diese in den meisten Fällen komprimiert. Ansonsten wären die Speicherkarten nach wenigen Minuten bereits voll. Für die Komprimierung gibt es verschiedene Verfahren. Das bekannteste ist die h.264-Methode, welche vor allem im Internet extrem weit verbreitet ist und sehr universell einsetzbar ist. Die Weiterentwicklung dieses Codecs heißt h.265, oft auch HEVC (High Efficient Video Codec) genannt, welcher die Daten, ohne weiteren Qualitätsverlust, noch stärker komprimiert.

Ein Container hingegen beschreibt eine Hülle, in der die Video-, Audiodateien und auch Metadaten (Untertitel, Copy-Right Daten, etc.) gespeichert werden. Oftmals werden Container auch als Dateierweiterungen bezeichnet, weil diese am Ende des Dateinamens zu sehen sind. Also zum Beispiel „Videodatei.mp4“.

Da ein Container keine Auswirkung auf die Bildqualität hat, ist dieser für uns nicht so interessant wie die verschiedenen Codecs. Die meisten Kameras wählen ihren Container ohnehin eigenständig aus, ohne dass der Endnutzer Einfluss darauf hat. Canon Kameras nehmen zum Beispiel im .mov und Sony-Kameras im MP4-Container auf.

 

3.1.7.1 Long-GOP & All-Intra

Long-GOP und All-Intra beschreiben Methoden der Komprimierung. Long-GOP steht für Long-Group of Pictures. Die Codecs h.264 und der neuere h.265 verwende jeweils das Long-GOP Verfahren.

Nehmen wir an, dass 24 Bilder die Sekunde aufgenommen werden. Bei der All-Intra-Komprimierung wird jedes Bild mit den vollen Informationen des Sensors abgespeichert. Diese vollständig gespeicherten Bilder werden auch I-Frames genannt.

In Long-GOP Codecs wird das aufgenommene Bild in Gruppen unterteilt. Zum Beispiel in Gruppen von jeweils 12 Einzelbildern. Genau wie im All-Intra Codec, ist das erste und das letzte Bild, immer ein vollständiges Bild (I-Frame), mit allen Informationen. Der Unterschied ist nun jedoch in den Bildern zwischen diesen I-Frames. Hier werden nämlich nicht mehr für jedes Bild alle Informationen gespeichert, sondern nur noch die Veränderungen zum vorherigen Bild. Vor allem in statischen Szenen können so viele Daten eingespart werden, da diese sich nicht zum vorherigen Bild verändert haben und nicht erneut gespeichert werden müssen.

In der Praxis ist das Long-GOP Verfahren natürlich äußerst komplex. Es gibt verschiedene „Zwischenbilder“ (B- und P-Frames) und sehr aufwendige mathematische Berechnungen, durch welche die Datenmenge möglich kleingehalten werden kann, ohne die Qualität zu sehr zu beeinträchtigen.

Videodateien, welche mit einem Long-GOP Codec komprimiert wurden, benötigen in der Post-Produktion jedoch eine deutliche höhere Rechenpower als ihr All-Intra Counterpart. Denn bei All-Intra Videos sind ja bereits alle Informationen in jedem Bild vorhanden. Bei Long-GOP Videos müssen die fehlenden I-Frames erst aus den verschieden zwischen Bildern (die B- und P-Frames) und den Unterschieden zu den wenigen I-Frames berechnet werden. Eben dieses Erstellen der I-Frames benötigt viel Rechenleistung.

 

3.1.7.2 RAW Video

RAW Video ist in den letzten Jahren ein immer größeres Thema geworden. Wie das Wort schon andeutet, wird hierbei auf die rohen Sensordaten zugegriffen und diese abgespeichert.

Es werden also die Daten vom Sensor ausgelesen und direkt abgespeichert, ohne dass diese von der Kamera weiterverarbeitet werden. Die RAW Daten werden also nicht durch einen Codec komprimiert oder in einen Container verpackt.

Das hat jedoch auch zur Folge, dass diese RAW-Videodateien nicht einfach in der Kamera oder auf einem Monitor abgespielt werden können. Zuerst müssen die RAW-Daten in der Post-Produktion verarbeitet werden. Diese Schritte sind identisch, zu der Art, wie die Kamera intern das Material verarbeitet. Dem Material wird also ein Gamma und ein Gamut zugeordnet (dazu in Kapitel 3.1.7 mehr). Auch andere Parameter, welche erst nach dem Sensorauslesen in der Kamera angebracht werden, sind bei RAW Files nicht „eingebacken“, sondern können später in der Post Produktion frei angepasst werden. Dazu zählt zum Beispiel die ISO Zahl, der Weißabgleich oder andere Farbanpassungen.

Faktisch hat jede Kamera einen Schritt in ihrem Verarbeitungsprozess, der die rohen Daten beinhaltet. Die Frage ist nur, ob die Kamera es ermöglicht, diese Rohdateien direkt abzuspeichern.

Da in der Kamera keine Komprimierung der Informationen vorgenommen wird, sind die RAW-Dateien entsprechend groß und nehmen schnell die zwanzigfache Größe von Long-GOP Dateien an.

Was ist nun aber der Vorteil von RAW, wenn in der Post Produktion die Daten ohnehin wieder identisch verarbeitet werden? Der große Vorteil von RAW ist, dass man die maximale Menge an Daten in der Post Produktion zur Verfügung hat. Bei Long-GOP oder All-Intra Dateien wurden Informationen bereits in der Kamera zusammengefasst, komprimiert und zum Teil gelöscht. RAW Daten ermöglichen so die maximale Flexibilität und Qualität in der Nachbearbeitung. Wie bereits gesagt, sind dafür die Dateien riesig, nicht einfach am Monitor betrachtbar und die Nachbearbeitung etwas zeitaufwendiger.

Die oben beschriebene Definition von RAW Video bezieht sich jedoch nur auf unkomprimiertes RAW. ARRI bietet zum Beispiel die Möglichkeit, unkomprimierte RAW Daten extern aufzunehmen. In der Praxis sind jedoch die meisten RAW-Dateien bereits geringfügig komprimiert. Jedoch nicht im gleichen Rahmen wie Long-GOP Dateien, sondern es wird eher die Bit-Tiefe oder das Farbsubsampling angepasst (siehe Kapitel 3.1.7)

Inzwischen gibt es selbst im Consumer Bereich viele unterschiedliche RAW-Formate. Die bekanntesten darunter Black Magic RAW (BRAW), Canon Cinema RAW Light und Apple ProRes RAW. Jedes dieser Formate ist ein komprimierte RAW Varianten, mit verschiedenen Stärken und Schwächen.

 

3.1.7.3 Bit-Rate

Die Bit-Rate, (nicht zu verwechseln mit Bit-Tiefe), auch Datenrate genannt, beschreibt die Zahl an Bits pro Sekunde. Aus der Zahl lässt sich die Videogröße und auch geringfügig etwas über die Videoqualität ableiten.

Nehmen wir an, wir nehmen ein 60 Sekunden langes 4k Video mit einer Bit-Rate von 100 Megabit/s (kurz Mbit/s) auf. Nehmen wir also die 100 Mbit/s * 60 Sekunden, erhalten wir eine Dateigröße von 6.000 Mbit. Üblicherweise rechnet man Dateigrößen jedoch in Bytes. 8 Bit entsprechen hier 1 Byte. Also 6.000 Mbit / 8 = 750 Megabyte (kurz MB).

Generell sagt man, je höher die Bit-Rate, desto besser ist die Videoqualität. Das stimmt jedoch nur bedingt. Entscheiden ist bei dieser Aussage, über welchen Codec wir sprechen. Gehen wir einmal davon aus, dass das obere 60-Sekunden-Video mit 100 Mbit/s mit dem h.264 Codec aufgenommen wurde. Der deutlich effizientere h.265 Codec erreicht bei der Hälfte der Bit-Rate (also 50 Mbit/s) eine gleiche Qualität. Wir könnten also mit dem h.265 Codec 50 % der Datenmenge ansparen, ohne einen Verlust an Qualität zu haben. Speziell für lange Drehtage und wenig Speicherplatz, kann das eine interessante Möglichkeit sein.

Man sollte jedoch auch immer die Bildrate (Framerate) mit im Kopf behalten. Nimmt man mit 25 Bilder pro Sekunde und einer Datenrate von 100 Mbit/s auf. So steht jedem Bild 4 Mbit (100/25) an Daten zur Verfügung. Würden wir, rein theoretisch, die Bildrate auf 100 Bilder pro Sekunde vervierfachen, ohne die Datenrate zu verändern, so hätte jedes Bild nur noch 1 Mbit zur Verfügung. Das würde einen deutlichen Qualitätsverlust bedeuten. In der Praxis erhöhen die aktuellen Kameras ihre Datenrate aber entsprechend zur Framerate.

Größere Codecs wie z. B. der XAVC-S I Codec von Sony, welcher auf die All-Intra-Methode zurückgreift, hat Datenraten von 600 Mbit/s und mehr. Das macht natürlich Sinn, wenn wir uns daran erinnern, dass die All-Intra Codecs das Bild deutlich weniger Komprimieren als Ihre Long-GOP-Pendants.

Bei der RAW-Aufnahme kommen gerne auch mal Datenraten von über 4.000 Mbit/s erreichen. Dann wäre unser 60 Sekunden langer 4k Clip anstatt 750 MB satte 30.7 GB groß. Also das 41-Fache. Hier wird also schnell klar, warum man sich genau überlegen sollte, ob man in einem RAW-Format aufnehmen möchte.

 

3.1.8 Bildprofile

Bildprofile ermöglichen das Anpassen und Verändern von verschiedenen Charakteristiken und wie das Bild final in der Kamera gespeichert wird. Durch die Bildprofile kann der Kontrast, die Farbtonalität, die Helligkeitsgradation oder digitale Schärfe bereits in der Kamera angepasst werden. Alle diese Anpassungen finden vor der Komprimierung der Daten in der Kamera statt. Das ist ein extrem großer Vorteil. Denn man kann natürlich auch viele der Änderungen in der Post-Produktion anwenden. Da dann das Bild bereits komprimiert, Daten verändert oder gelöscht wurden, verschlechtert das die Qualität nur weiter. Daher ist es wichtig, die Anpassungen des Bildes so früh wie möglich im Bildprozess-Pipeline zu integrieren.

Generell hat jeder Kamerahersteller sein eigenes Bildprofil. Manche sind dafür entworfen, ein möglichst schönes Bild direkt aus der Kamera zu erhalten. Das spart Zeit in der Post Produktion und ermöglicht eine schnelle und unkomplizierte Auslieferung an den Kunden.

Andere Bildprofile bieten eine möglichst hohe Dynamische Reichweite und die maximale Flexibilität in der Post Produktion. Dazu in den folgenden Kapiteln mehr.

 

3.1.8.1 Dynamische Reichweite

Simpel ausgedrückt beschreibt die Dynamische Reichweite (englisch dynamic range) eines Sensors, die Reichweite zwischen den dunkelsten und den hellsten Teilen eines Bildes. Es ist also wichtig, dass der Sensor möglichst viele Details beibehält, bevor Informationen in komplettem Schwarz oder in komplettes Weiß verloren gehen. Je mehr Informationen der Sensor in den extremen Bildbereichen behält, also zum Beispiel unter einem schattigen Baum und einem hellen Himmel, desto höher ist die dynamic range und desto besser ist das Endresultat.

Die Dynamische Reichweite eines Sensors ist eines der ausschlaggebenden Argumente für die Bildqualität einer Kamera. Die dynamic range (kurz DR) wird in Blendenstufen (engl. stops) gemessen. Jede zusätzliche Blendenstufe bedeutet die doppelte Menge an Licht. Eine Kamera mit 13 Blendenstufen kann im Vergleich zu einer Kamera mit 10 Blendenstufen das Achtfache an Lichtmenge aufnehmen. In der Abbildung 3-18 sieht man einen solchen Unterschied von Dynamischer Reichweite. Während der untere Balken über den kompletten Bereich verschiedene Helligkeitsnuancen aufzeigt, gehen bei dem oberen Balken bereits deutlich früher Details in den dunklen und den hellen Bildbereichen verloren. Man spricht bei solch einem Detailverlust auch von Clipping. Es gehen also Informationen verloren. Genauer gesagt gehen diese nicht verloren, sondern können von dem Sensor gar nicht erst erfasst werden und es wird nur noch vollständiges Schwarz oder Weiß dargestellt, ohne jegliche Details.

Abbildung 3‑18: Dynamische Reichweite verschiedener Sensoren Quelle: Eigene Darstellung

 

3.1.8.2 Log

Ein Log-Bildprofil ermöglicht es, die dynamische Reichweite deutlich zu erhöhen. Aber wie genau funktioniert Log? Dafür müssen wir uns erst anschauen, wie Kameras in einem regulären Bildprofil die Informationen verteilen und speichern.

Nehmen wir einmal an, wir haben eine klassische Einsteigerkamera, welche Videomaterial mit einer 8-Bit Tiefe aufnehmen kann. 8 Bit bedeutet 256 (2^8) verschiedene Werte. Pixel, die absolut schwarz sind (also keine Belichtung haben), bekommen den Wert 0. Überbelichtete Pixel (100 % weiß) bekommen den Wert 255. Alle Helligkeitsabstufungen dazwischen bekommen die anderen 254 Werte zugeordnet. Die verschiedenen Stufen werden nun gleichmäßig und linear auf die vorhandenen Werte verteilt. Das Problem ist jedoch, dass die Belichtung nicht linear gemessen wird, sondern logarithmisch. Jede volle Blendenstufe an Licht verdoppelt die einfallende Lichtmenge. Gehen wir kurz noch mal einen Schritt zurück und verdeutlichen uns erneut, wie ein Sensor Licht aufnimmt. Das Licht wird durch das Objektiv gebündelt und trifft auf die Pixel. Diese Empfangen das Licht und es wird eine elektrische Spannung ausgelesen und durch den Bildprozessor in ein Video umgewandelt. Bleiben wir bei unserem 8-Bit Videobeispiel. Sagen wir, dass die 7. Blendenstufe eine Lichtmenge von 500 hat, eine freigewählte Zahl. Bei der 8. Blendenstufe hätten wir also eine Lichtmenge von 1.000 und ein entsprechend doppelt so stark elektrisches Signal. Unser Bildprozessor würde in einem linearen Bildprofil, bei der Umwandlung der Daten also 128 unserer insgesamt 256 Werte im 8-Bit Codec allein für die 8. und letzte Blendenstufe verwenden. Also satte 50 %. Entsprechend gering sind die übrigen Abstufungen für die restlichen 7. Blendenstufen. Die Abbildung 3-19 veranschaulicht das Problem etwas besser.

Abbildung 3‑19: Lineares Bildprofil Quelle: David Adler / bhphotovideo.com

Die X-Achse zeigt eine Dynamische Reichweite von 8 Blendenstufen. Natürlich haben moderne Kameras mehr der Einfachheit halber nehmen wir jedoch eine DR von 8. Die Y-Achse zeigt die Helligkeitswerte, welche den einzelnen Blendenstufen zugeordnet werden und zur Verfügung stehen. Die letzte Blendenstufe bekommt also volle 128 Werte. Die 7. Bekommt 64 und die 6. Schon nur noch 32 Werte. Das bedeutet also, dass die letzten vier Blendenstufen zusammen (immerhin die Hälfte unserer Dynamic Range), nur 1/16 der vorhandenen Abstufungen. Man sieht also schnell, wo das Problem liegt.

Log Bildprofile versuchen dieses Problem zu lösen. Anstatt nun jeder Blendenstufe einen linearen Wert zuzuteilen, werden die Werten anhand einer Kurve angepasst. Dadurch werden die unteren und mittleren Blendenstufen nach oberen korrigiert, wo die meiste Bit-Tiefe vorhanden ist. Anhand einer Abbildung würde das in etwa so aussehen:

Abbildung 3‑20: Log Bildkurve Quelle: David Adler / bhphotovideo.com

 

Abbildung 3‑21: Normales Bildprofil (oben) gegenüber SLOG 3 (unten) Quelle: Eigene Darstellung

Man kann also gut sehen, wie die dunklen Bildbereiche nach oben gehoben und heller dargestellt werden, wo hingegen die hellen Bildteile abgeflacht werden und so mehr Helligkeitsstufen für weitere Blendenstufen übrig sind. Das hat den offensichtlichen Nebeneffekt, dass das Log Videomaterial ausgewaschen und grau aussieht. Es ist also zwangsläufig notwendig, das Log Material in der Post Produktion zu korrigieren (graden). Wie einfach diese Korrektur möglich ist, wird in Kapitel 3.4.8 erklärt.

Die zwei Bilder wurden mit der Sony 7S III aufgenommen. Das linke Bild hat kein spezielles Bildprofil, wo hingegen das rechte Bild in einem Log Format (SLOG 3) aufgezeichnet wurde. Beide Bildern wurden mithilfe von Zebras so belichtet, dass die Wolken unter der Sonne noch Details haben und nicht ausgebrannt sind.

Man erkennt direkt, dass das linke Bild sehr viel Kontrastreicher ist und das SLOG 3 Bild förmlich ausgewaschen wirkt. Dem Log-Bild fehlt Kontrast und Sättigung, was erstmal sehr ungewohnt aussieht. Man erkennt aber bereits sehr gut, wie viel mehr an Details und Zeichnung in den dunklen Bildbereichen noch vorhanden sind. Wenn wir das SLOG-Bild mithilfe eines LUTs in einen REC.709 Farbraum konvertieren, können wir die beiden Bild noch besser vergleichen.

Abbildung 3‑22: Standard-Bildprofil Quelle: Eigene Darstellung

Abbildung 3‑23: In REC.709 konvertiertes SLOG 3 Bildprofil Quelle: Eigene Darstellung

Abbildung 3‑24: Standard-Bildprofil – 200% Vergrößerung Quelle: Eigene Darstellung

Abbildung 3‑25: In REC.709 konvertiertes SLOG 3 Bildprofil – 200% Vergrößerung Quelle: Eigene Darstellung

In der 200 % Vergrößerung wird der Unterschied und der enorme Vorteil von Log-Profilen sehr deutlich. Trotz der sehr schwierigen Gegenlicht-Situation ist es dank dem Log-Profil möglich den Himmel richtig zu belichten und trotzdem ausreichend Zeichnung in den dunklen Bildbereichen zu behalten. Das Ergebnis kann zwar von Log zu Log-Format und von Kamera zu Kamera unterschiedlich sein, jedoch haben Log-Formate immer einen deutlichen Vorteil im Bereich der Dynamik.
Log bietet nicht nur eine höhere Dynamik und bessere Verteilung der Bits auf die verschiedenen Helligkeitswerte, sondern auch eine hohe Flexibilität in der Post Produktion. Durch den sehr neutralen Startpunkt, welche man mit Log Videomaterial hat, kann man das Material sehr einfach und flexibel, ohne merklichen Qualitätsverlust anpassen und verändern. Das setzt in den aller meisten Fällen jedoch mindestens einen 10 Bit Codec voraus. Ansonsten kann es bei 8-Bit Videomaterial und dem Einsatz eines sehr flachen Log-Bildprofiles (wie z. B. SLOG 3) vorkommen, dass zu viele Informationen auf die mittleren Bits verteilt werden. Da ein 8-Bit Codec deutlich weniger mögliche Farb- und Helligkeitswerte hat (im Vergleich zu 10 oder gar 12-Bit), können dadurch wiederum Farbfehlern oder Farbabstufungen (color banding) sichtbar werden, nachdem man das Material in der Post Produktion in ein linearen REC.709 Raum korrigiert hat.

 

3.2 Belichtung

Abbildung 3‑26: Belichtungsdreieck Quelle: Darek, M. / resoundcameraclub.com

Alle vorangegangenen Informationen bilden ein grundsätzliches Verständnis für Kameras und deren Funktionsweise. Wie man jedoch ein Bild richtig belichtet, ist die Hauptarbeit und eine der wichtigsten Aufgaben eines jeden Videografen. Die reine Kamerabelichtung besteht aus drei Hauptaspekten. Der Verschlusszeit, der Blende und dem ISO Wert. Diese drei Parameter bestimmen die finale Belichtung des Videomaterials und müssen entsprechend kombiniert werden, um die gewünschte Belichtung zu erreichen.

Darüber hinaus gibt es jedoch noch weitere Aspekte. Man kann zum Beispiel durch zusätzliche Lichter die Helligkeit am Set erhöhen oder durch ND-Filter (Graufilter) die Helligkeit reduzieren.
Über die „richtige Belichtung“ kann man sich jedoch streiten. Im Grunde kommt es vor allem auf das Projekt an, dass man umsetzen möchte. Eine romantisches Comedy Film wird meisten viel heller und freundlicher gefilmt als ein Horrorfilm. Es gibt also kaum ein richtig und falsch, da hier vor allem der kreative Aspekt des Filmemachens gefragt ist.

Wenn wir den kreativen Aspekt einmal außenvor lassen, kann man jedoch sagen, dass die Belichtung ein möglichst ausgewogenes Bild ergeben soll. Im idealen Fall sollen Details in den dunklen Bereichen vorhanden sein, aber gleichzeitig auch in den hellen Bildbereichen. Es sollten also keine Informationen verloren gehen. Hier helfen natürlich die Bildprofile mit einer höheren Dynamik, wie z. B. ein LOG Profil (Kapitel 3.1.8.2). Aber auch diese Bildprofile wollen richtig belichtet werden.

 

3.2.1 Verschlusszeit & 180° Shutter Regel

Die Verschlusszeit, auch Belichtungszeit oder im englischen shutter speed oder shutter angle genannt, gibt an, wie lange das Licht auf die Pixel fällt, bevor diese ausgelesen werden. Je länger die Pixel das Licht aufnehmen können, desto stärker das elektrische Signal und entsprechend heller wird das Bild. Je kürzer die Belichtungszeit, desto dunkler das Bild.

Die Belichtungszeit wird in Sekunden oder in Bruchteilen einer Sekunde angegeben. Haben wir eine Verschlusszeit von zwei Sekunden, trifft für zwei volle Sekunden das Licht auf die Pixel, bevor diese ausgelesen werden. Bei einer Belichtungszeit von 1/50 (einem Fünfzigstel), entsprechend nur dem fünfzigsten Teil einer Sekunde.

In der Fotografie wird die Belichtungszeit mit einem Verschluss, – einer Art Vorhang erreicht. Diese befindet sich vor dem Sensor und lässt auf jeden Pixel nur für die entsprechende Zeit das Licht auf die Pixel eintreffen, bevor der Vorhang sich wieder schließt und die Pixel ausgelesen werden.

In der Videografie ist das wegen mechanischer Limitierungen nicht möglich. Denn der Verschluss müsste für jedes einzelne Bild auf und zu gehen. Also bis zu 120-mal oder mehr in der Sekunde, wenn man mit einer hohen Framerate filmen möchte. Daher öffnet sich der Verschluss und die eigentliche Verschlusszeit wird elektronisch simuliert. Es muss sich also kein mechanisches Teil mehr bewegen.

Mit einer kürzer Verschlusszeit verringert sich nicht nur die einfallende Lichtmenge, sondern es wird auch die Bewegungsunschärfe minimiert. Wenn die Pixel jedoch länger belichtet werden, erhöht sich diese Bewegungsunschärfe. In Abbildung 3-27 wird dies etwas veranschaulicht.

Abbildung 3‑27: Auswirkung der Verschlusszeit Quelle: Tomasz / beyondthetime.net

Es gibt jedoch eine Richtlinie, die noch aus der Zeit der Filmkameras kommt. Die 180° Shutter Regel besagt, dass die Belichtungszeit immer das doppelte der Framerate sein soll. Filmt man also mit 25 Bildern pro Sekunde, so sollte die Belichtungszeit idealerweise 1/50 betragen. Filmt man mit 100 Bildern die Sekunde entsprechend 1/200.

Aber wie kommt es, dass die Belichtungszeit immer das doppelte der Bildrate sein sollte? Bei den früheren Filmkameras wurde ein rotierender Verschlussmechanismus benutzt. Wenn man den Winkel der Rotation verändert hat, konnte man die Verschlusszeit verändern. Damals hat man sich (für die meisten Fälle) auf eine 180° Belichtung geeinigt. Die Hälfte der Rotation wurde also der Filmstreifen belichtet und in der restlichen Hälfte der Rotation der Film weitergedreht, damit das nächste Bild belichtet werden konnte.

Abbildung 3‑28: Verschiedene Verschlusswinkel Quelle: Plowboylifestyle / Wikipedia

Für einen möglichst natürlichen und filmischen Bildlook sollte man sich also immer an die 180° Shutter Regel halten. Für stilistische Zwecke kann man natürlich auch von dieser Regel abweichen. Da wir haben seit Jahrzehnten diesen Look aus Kino und Fernsehen kennen, empfinden wir diesen am angenehmsten.

 

3.2.2 Blende

Die Blende eines Objektives beschreibt die Menge an Licht, welche vom Objektiv gebündelt wird und dann auf den Sensor trifft. Im Grunde beschreibt die Blende immer den Frontdurchmesser des Objektives in Relation zu der Brennweite. Darauf gehen wir jedoch im Kapitel 4 genauer ein.

Die Blendenreihe gibt an, wie viel Licht in das Objektiv einfällt. Die Reihe sieht wie folgt aus:
f/1 – f/1,4 – f/2 – f/2,8 – f/4 – f/5,6 – f/8 – f/11- f/16 – f/22
Je kleiner die Zahl, desto mehr Licht wird eingelassen.

Abbildung 3‑29: Verschiedene Blendenwerte Quelle: KoeppiK / Wikipedia

In der Abbildung 3-29 sieht man sehr deutlich, wie eine geringe Blendenzahl (oder auch eine offene Blende genannt) eine viel größere Öffnung hat und somit mehr Licht einlässt als eine geschlossene Blende (ein abgeblendetes Objektiv) mit f/8.0. Mit jeder vollen Blendenzahl verdoppelt oder halbiert sich die Menge an Licht. Schließt man also ein Objektiv von f/2.0 auf f/2.8, so verliert man 50 % der Lichtmenge. Von f/2.8 auf f/4 entsprechend noch mal 50 %. Also hätte man auf f/4 nur noch 25 % des Lichtes, das auf den Sensor trifft, im Vergleich zu f/2.0.

Bei modernen Kameras gibt es auch noch Drittel-Blendenstufen, die eine genauere Lichtkontrolle ermöglichen. Mit diesen Zwischenstufen würde die Blendenreihe so aussehen:

f/1,4 – f/1,6 – f/1,8 – f/2 – f/2,2 – f/2,5 – f/2,8 – f/3,2 – f/3,5 – f/4 – f/4,8 – f/5,6

Der Blendenwert hat jedoch noch weitere, kreative Auswirkungen auf das Bildergebnis. Allen voran die Unschärfe (englisch Depth of Field). Je offenblendiger ein Objektiv ist, desto größer ist die Unschärfe und dadurch die Separierung einzelner Elemente von dem Hintergrund.

Möchte man einen größeren Bereich im Fokus haben (also in der Schärfe), muss man das Objektiv etwas abblenden, was in einem dunkleren Bild resultiert. Möchte man ein Objektiv jedoch von einem Hintergrund freistellen, öffnet man die Blende und lässt dadurch mehr Licht auf den Sensor.
Mithilfe der Blende ein Bild zu belichtet in zwar möglich, jedoch nicht einfach. Vor allem wenn man einen konstanten Bildlook beibehalten möchte, sollte man die Blende nicht zu stark verändern. Auch hier gilt jedoch wieder: es gibt keine pauschalen Regeln. Die Videografie ist sehr kreativ und für viele Einstellungen und Shots gibt es kein klares richtig oder falsch. Hier kommt es sehr auf den gewünschten Effekt an.

Abbildung 3‑30: Auswirkung der Blende auf die Unschärfe Quelle: Camera Lenses Explained PDF / Studiobinder

 

3.2.3 ISO

Wir haben bereits mehrfach darüber gesprochen, wie Sensoren das einfallende Licht in ein Bildsignal umwandeln. Das Licht wird vom Objektiv gebündelt, trifft auf den Sensor und dann wird die elektrische Spannung der Pixel ausgelesen. Und an genau diesem Punkt setzt der ISO (in manchen Filmkameras auch Gain genannt) an. Wenn wir nun den ISO-Wert erhöhen, erhöhen wir nachträglich diese anliegende Spannung und verstärken somit das vorhandene Signal. Dadurch wird das Bild heller. Oder man könnte sagen, dass die Kamera empfindlicher für das einfallende Licht wird.

Die ISO Werte werden mit einer Zweierpotenz gemessen, da jeder ISO Schritt die Sensorempfindlichkeit und somit die Lichtmenge verdoppelt. Die ISO Reihe sieht so aus:

100, 200, 400, 800, 1.600, 3.200, 6.400, 12.800, 25.600 und so weiter.

ISO 200 erhöht also die Helligkeit um das Doppelte. Mit ISO 400 hätte man also schon das Vierfache an Licht, im Vergleich zu ISO 100. Jedoch hat die digitale Verstärkung der elektrischen Spannung auch einen großen Nachteil. Nämlich die Verstärkung des Bildrausches. Dazu im folgenden Kapitel mehr.

Oftmals klingt es jedoch verlockend, das Bild mithilfe des ISOs richtig zu belichten. Zumindest wenn Licht fehlt, kann man den ISO-Wert hochschrauben und man hat entsprechend mehr Licht. Da die Erhöhung des ISO jedoch auch die Bildqualität verschlechtert, ist das auch nicht immer eine gute Möglichkeit.

 

3.2.3.1 Bildrauschen / Noise

Durch das Erhöhen des ISOs verstärkt man leider auch das Bildrauschen im Videomaterial. Das Rauschen äußert sich durch eine körnige Struktur, die die Bildqualität zum Teil stark beeinträchtigen kann.

Prinzipiell ist erst mal egal, welcher ISO Wert anliegt. Jeder Sensor hat ein Grundrauschen. Selbst Kinokameras, die über 80.000 € kosten haben eine Körnung. Man sagt dazu auch Grundrauschen, da es immer vorhanden ist, selbst bei dem niedrigsten ISO Wert. Bildrauschen kann unterschiedliche Gründe haben.

Interner Noise entsteht oft durch den eigentlichen Stromkreis, Hitze oder die Sensorbelichtung. Letztes mag erst mal etwas merkwürdig klingen. In dunklen Bildteilen empfangen die Pixel jedoch oft zu wenig Licht, um ein starkes elektrisches Signal zu erzeugen. Ist das Signal schwächer als das Grundrauschen, geht dieses Verloren und das Rauschen wird nicht „überdeckt“. Daher wird das Bildrauschen auch vor allem in dunklen Bildteilen sichtbar. Je heller ein Bildbereich ist, desto stärker ist das Signal und es entsteht somit ein großer Abstand zu dem Grundrauschen. Man spricht hierbei auch von der Signal-to-Noise Ration (Kurz SNR, zu Deutsch: Signal-Rausch-Verhältnis). Es ist also wichtig, dass das SNR so hoch wie möglich ist, damit Details nicht im Grundrauschen des Sensors verloren gehen.

Wenn wir nun also z. B. eine abendliche Stadtkulisse filmen wollen, jedoch das Bild etwas zu dunkel ist, können wir den ISO erhöhen und somit eine bessere Belichtung erreichen. Das Problem ist jedoch, dass wir nicht nur das Bildsignal erhöhen, sondern auch das Grundrauschen im gleichen Maße verstärken. Wir verringern dadurch also das Signal-to-Noise-Verhältnis.

Je nach Kameramodell ist das Grundrauschen unterschiedlich stark ausgeprägt. Es hängt generell von vielen verschiedenen Faktoren wie zum Beispiel Sensorgröße, Pixelgröße, internes Hitzemanagement, Signalverarbeitung, externe Temperatur und noch vielen weiteren Aspekten ab. Ebenso verhalten sich alle Kameras über die ISO Reihe hin sehr unterschiedlich, da sich das Rauschverhalten nicht immer linear zum veränderten ISO Wert hin verändern. Manche Kameras sind bis ISO 3.200 nutzbar, haben dann jedoch mit ISO 6.400 einen deutlichen Qualitätsverlust. Kameras wie die Sony 7S III haben zum Beispiel ein geringes Grundrauschen und können auch noch bei hohen ISO Zahlen gut eingesetzt werden, ohne dass das Rauschen zu extrem wird. Das liegt jedoch auch an der Dual Gain Sensorstruktur der Sony-Kamera. Dazu im nächsten Kapitel mehr.

Generell muss man jedoch sagen, dass auch das Rauschen etwas sehr Subjektives sein kann. Viele Filmemachen schwören auf das alte Bildrauschen von früheren Filmkameras. Manche modernen Kameras haben ein sehr natürliches und organisches Rauschverhalten. Das wird vor allem den Kameras von ARRI nachgesagt. Oftmals wird noch in der Post Produktion ein digitales Filmgrain hinzugefügt, um einen klassischen Filmlook zu bekommen.

Man sollte jedoch generell darauf achten, die ISO Werte nicht zu extrem zu steigern. Ebenso sollte man sich über sein jeweiliges Kameramodell informieren, welche ISO Bereiche noch gut nutzbar sind und ab wann man mit Qualitätsverlusten rechnen muss.

 

3.2.3.2 Nativer ISO und Dual ISO

Jeder Sensor beziehungsweise die Signalverarbeitung im Hintergrund hat einen nativen ISO-Wert (auch Base ISO genannt). Dieser unterscheidet sich oft von Kamera zu Kamera und oft auch zwischen den verschiedenen Bildprofilen. Da der Sensor auf diesem ISO-Wert die beste Qualität liefert, sollte man sich immer darüber informieren, welcher der Base ISO in der jeweiligen Kamera und dem entsprechenden Bildprofil ist.

Man kann sich den nativen ISO und generell das Verhalten von ISO wie einen Gitarrenverstärker vorstellen. Das Signal kommt aus der Gitarre (oder eben Kamera) wird in ein digitales Signal umgewandelt und dann von dem Verstärker erhöht, damit die Boxen eine passende Lautstärke ausgeben können. Möchte man nun die Lautstärke erhöhen, muss man den Gain des Verstärkers erhöhen. Nun arbeitet der Verstärker aber nicht mehr mit seinen idealen Standardeinstellungen. Je lautet man den Gain des Verstärkers aufdreht, desto verzerrter und „griddy“ klingt die Gitarre plötzlich.
Genauso verhält es sich auch bei einer Kamera. Erhöht man den Gain der internen Signalverarbeitung, erhöht man zwar die Signalstärke (und damit die Helligkeit), aber man bekommt entsprechend mehr Rauschen und dadurch eine schlechtere Dynamik.

Aber was wäre, wenn man den Verstärker mit einem anderen Tauschen würde, der bereits grundsätzlich eine höhere Verstärkung hat, ohne dass man den Gain dafür benutzten muss?

Genau das passiert bei Dual native ISO. Kameras mit dieser Technik haben zwei dieser Verstärker eingebaut. Einer der Verstärker erhöht das Signal kaum und der andere hat eine deutlich höhere native Grundverstärkung. Das hat den Vorteil, dass die Kamera bei höheren ISO Zahlen auf den zweiten Verstärker wechseln kann und somit das Bild wieder deutlich rauschärmer ist. Bei der Sony A1 ist der erste native ISO in SLOG 3 800 und der zweite native ISO bei 4.000. Der zweite ISO-Wert ist also über viermal so empfindlich als der erste native Verstärker. Das ermöglicht eine hohe Flexibilität in den verschiedensten Lichtverhältnissen.

Wichtig ist hier jedoch noch zu wissen, dass die verschiedenen nativen ISOs sich von Bildprofil zu Bildprofil unterscheid können. Sind bei einer Sony 7S III die nativen ISOs ohne Bildprofil bei 80 und 1600, so sind diese in SLOG 3 bei 640 und 12.800. Hier ist es also wichtig, sich vorab über sein Kameramodell und die entsprechenden Bildprofile zu informieren.

 

3.2.4 Hilfsmittel für eine richtige Belichtung

Bei der Belichtung muss man sich nicht allein auf das eigene Augenmaß verlassen. Es ist zwar bei Standardbildprofilen durchaus praktikabel einfach nach dem „wie sieht das Bild für mich aus“ Prinzip zu belichten, aber spätestens, wenn man mit LOG Bildprofilen arbeitet, langt das bloße Augenmaß oftmals nicht mehr. Zur Beurteilung der Helligkeit und der Belichtung gibt es einige nützliche technische Hilfsmittel der Kameras, die über die reine EV (Exposure Value, deutsch Belichtungswert) Anzeige hinaus geht.

 

3.2.4.1 Histogramm und Waveform

Ein Histogramm zeigt die Helligkeit des gesamten Bildes in einer visuellen Form und ist in jeder aktuellen Foto- oder Videokamera vorhanden. Auf der X-Achse liegt die Helligkeit von komplett Schwarz bis komplett Weiß. Am äußersten linken Rand befindet sich 100 % schwarz und am äußersten rechten Rand 100 % Weiß. Für eine gute Belichtung sollten keine Striche an den beiden Rändern zu sehen sein, da dort keine Details mehr aufgezeichnet werden. Auf der Y-Achse befindet wird die Anzahl der Pixel dargestellt. Je höher die „Berge“, desto mehr Pixel befinden sich in eben jenen Helligkeitsbereich.
Anhand des Histogramms kann man also sehr schnell beurteilen, ob Details in den jeweiligen linken oder rechten Bereichen verloren gehen, ob das Bild zu hell, zu dunkel oder eher neutral belichtet ist. Gehen Details in hellen Bildbereichen verloren, weil zum Beispiel der Himmel zu hell ist, spricht man oft auch umgangssprachlich von Clipping. Mithilfe des Histogramms kann man gut beurteilen, wie viel Spielraum man noch in der Dynamik zur Verfügung hat. Man kann also die dunklen und mittleren Bildbereiche eines neutral belichteten Bildes in Richtung der Highlights verschieben und so eine leichte Überbelichtung erreichen, die schlussendlich jedoch das Rauschverhalten verbessert. Wichtig ist aber, dass keine (oder so wenig wie möglich) Informationen in den hellen Bereichen verloren gehen und clippen. Mehr zum richtigen Belichten mithilfe des Histogramms im nachfolgenden Kapitel.

Abbildung 3‑31: Aufbau eines Histogramms Quelle: Dan Zafra / Capturetheatlas.com

Die Waveform-Darstellung ist, anders als das Histogramm, nicht in allen Kameras verfügbar. Zumindest in weniger Hybridkameras wie der Sony Alpha 7 Reihe oder der Canon R Linie. Panasonic, Blackmagic oder teurere Kinokameras haben diese Darstellungsmöglichkeit jedoch von Haus aus. Ansonsten können nahezu alle externen Monitore eine Waveform darstellen.

Abbildung 3‑32: Waveform Anzeige mit ohne und mit Farbe Quelle: Eigene Darstellung

Bei einem Waveform ist auf der Y-Achse die Helligkeit des Bildes dargestellt. In diesem Beispiel sind dort die Bit-Werte angegeben. Da dieses Videomaterial in 10-Bit aufgenommen wurde, haben wir insgesamt 1024 Abstufungen. Ganz unten ist komplettes Schwarz und oben ist 100 % Weiß. Dazwischen liegen die entsprechenden Helligkeitsabstufungen. Es gilt also das gleiche Prinzip wie bei einem Histogramm. Es sollten nach Möglichkeit keine Informationen die Maximalwerte erreichen, da dort keine Informationen mehr vorhanden sind. Es gibt ebenso die Möglichkeit, sich die drei RGB-Farbkanäle anzeigen zu lassen. So kann man zum Beispiel einfacher überprüfen, ob der Weißabgleich stimmt oder ob einzelne Farben zu dominant sind und eventuell Details verlieren, da auch einzelne Farbenkanäle im oberen oder unteren Bereich clippen können.

Auf der X-Achse ist hingegen das eigentliche Bild dargestellt. Man kann also mithilfe der Waveform-Darstellung die einzelnen Bildbereiche genauer beurteilen, als es mit einem Histogramm möglich ist. Man kann also ein Waveform wie ein Bild lesen. Um das etwas zu veranschaulichen, ist hier einmal das Bild mit seiner entsprechenden Waveform-Darstellung nebeneinander und einmal überlagernd.

Abbildung 3‑33: Wie ein Bild in einer Waveform dargestellt wird Quelle: Eigene Darstellung

Man erkennt also auch über das Waveform die einzelnen Bildelemente sehr gut. Ganz Links ist eine Hecke, die über einen Verlauf von dunkel Grün zu hellgrün übergeht. Das lässt sich auch anhand der Waveform sehr gut nachvollziehen. Ganz links haben wir einen deutlich höheren Grünanteil, der von unseren Bereich immer höher steigt, also heller wird.

Dann kommt ein sehr dunkler Bildbereich zwischen 0 und 128. Das ist die Türe und auch noch das schwarze T-Shirt der linken Frau. Dazu kommen dann noch verschiedene Hauttöne und das weiße Brautkleid. Weiter rechts sehen wir dann zum Beispiel auch gut den hellblauen Anzug des Bräutigams deutlich in der Waveformdarstellung.

Ob man nun lieber mit dem Histogramm oder der Waveform arbeitet, ist jedem selbst überlassen. Mit Letzterem kann man etwas genauer Arbeiten. Für eine schnelle Einschätzung der Helligkeit genügt jedoch auch das Histogramm.

 

3.2.4.2 Zebra und Clipping-Points

Die Zebra Funktion ist für viele Filmemacher eine der meistgenutzten Möglichkeit, um ein Bild richtig zu belichten und helle Bildbereiche richtig zu beurteilen. Hierbei werden Bildbereiche, welche in einem gewissen definierbaren Helligkeitsbereich liegen, durch eine straffierte Zebrafläche dargestellt.
Nehmen wir an, dass wir in einem Standardbildprofil im REC.709 Raum filmen. Schwarz ist 0 und 100 ist Weiß. Wir wollen also vor allem unsere hellen Bildbereiche schützen, sodass dort keine Informationen verloren gehen. Wir können also die Zebras auf 100 einstellen und sobald Informationen die Helligkeit von 100 erreichen, wird auf dem Bildschirm unserer Kamera ein Zebra-Muster bei genau diesen Stellen eingeblendet. Wir wissen also direkt, dass dieser Bereich zu hell ist und wir Details verlieren. Das kann man sehr gut in Abbildung 3-34 erkennen. Hier ist ist das Zebra auf 100+ eingestellt. Das bedeutet, dass alle Bildinhalte, welche hier als Zebra-Muster dargestellt werden, überbelichtet sind und keine Details mehr erhalten. Wie man gut erkennt, passt sich das Zebramuster entsprechend der Belichtung an. Je dunkler das Bild belichtet wird, desto mehr Details kommen wieder zurück in die Wolken und entsprechend geringere wird die Zebrastaffierung.

Wichtig ist jedoch zu beachten, dass jedes Bildprofil einen anderen Clipping-Point hat. Also der Punkt an dem keine Informationen mehr in den hellen Bildbereichen aufgezeichnet wird. Bei Sony hat SLOG 3 zum Beispiel einen Clipping-Point von 93 %. Andere Profile wie Cine 1 oder HLG 2 haben hingegen einen Clipping-Point von 109 % respektive 95 %. Entsprechend muss man die Zebraeinstellungen anpassen. Ratsam ist es auch, sich immer ein paar Prozent Puffer zu lassen. Clippt also das Material bei 100, kann man die Zebras auf 98 einstellen. Sollte also leichtes Clipping zu sehen sein, hat man immer noch einen kleinen Puffer und verliert nicht direkt wichtige Informationen in den hellen Bildbereichen.

Ebenso kann man mithilfe der Zebras die Belichtung auf die empfohlenen Werte einstellen. Die verschiedenen Kamerahersteller gaben immer an, auf welchen Wert mittelgrau oder Hauttöne belichtet werden sollten. Bei Sonys SLOG 3 sollte 18 % Grau (auch Mittelgrau genannt) auf 41 % Helligkeit belichtet werden. Mithilfe von einer Graukarte und den Zebras, welche man auf 41 % stellt, kann man so die empfohlene Helligkeit erreichen. Mehr Infos zu Graukarten gibts im nächsten Kapitel. Kaukasische Hauttöne sollten meistens im Bereich von 48-52 % belichtet sein.
Persönlich würde ich aber nicht zu strikt nach den Belichtungsangaben der Hersteller gehen. Zwar sind diese durchaus praktikabel, aber auch etwas zu vereinfacht. Man muss immer von Situation zu Situation entscheiden, welche Belichtung passend ist. Hat man einen sehr hellen Himmel, aber Menschen, die im Schatten eines Baumes stehen, muss man etwas heller belichten, damit man die Personen gut sieht. Das Details in den Highlights verloren gehen, muss man manchmal im Kauf nehmen. Generell ist eine Szene zu belichten fast immer mit Kompromissen verbunden.
Ebenso nutzen diese Angabe des ETTR (Expose to the Right) Prinzip nicht aus. Oftmals ist von der Helligkeit her noch deutlich Platz nach oben. Wenn das Bild zu dunkel belichtet wird, sitzen Schattendetails sehr nahe am Noise-Floor. Wie bereits besprochen, ist es ratsam LOG-Bildprofile etwas zu überbelichten. Viele Leute belichten SLOG 3 zum Beispiel auf ca. 50-55 % (bei einer 18% Graukarte), anstatt auf 41 %, um das maximale aus dem Bildprofil zu holen.

 

3.2.5 Richtig belichten und Exposing to the right (ETTR)

Da wir nun alle Belichtungsmöglichkeiten der Kamera kennen, müssen wir noch darüber sprechen, wie man eine richtige Belichtung und gleichzeitig die beste Bildqualität erhält.

Gehen wir der Einfachheit halber davon aus, dass wir eine natürliche Belichtung erreichen wollen. Also eine Belichtung mit möglichst viele Details in den Schatten und in den hellen Bildbereichen. Kreative Belichtungen wie Low- oder High-Key lassen wir außen vor. Aufgrund der größeren Dynamik ist ein LOG Bildprofil definitiv von Vorteil. Jedoch sind diese Bildprofile auch schwerer zu belichten, da das Kamerabild sehr flach und Grau aussieht.

Die Belichtungszeit sollten wir am besten immer bei dem Doppelten der Bildrate belassen. So haben wir eine möglichst natürliche Bewegungsunschärfe in unseren Aufnahmen.

Die Blende können wir je nach Aufnahme anpassen. Je offenblendiger, desto mehr Licht kommt rein und desto größer der Unschärfebereich. Je kleiner die Blendenöffnung, desto weniger Licht kommt auf den Sensor und desto größer ist der Schärfenbereich.

Den ISO Wert sollten wir idealerweise auf den nativen Wert einstellen. Sollte die Kamera noch einen weiten nativen ISO haben, kann man auch ohne Probleme zwischen den beiden Werten wechseln. Generell rauschen moderne Kameras jedoch so wenig, dass man in Low-Light Situationen durchaus den ISO ohne großen Qualitätsverlust erhöhen kann. Erst bei teils extremen ISO Werten von über 6.400 ISO oder darüber, fangen einige Kameras an deutliche Probleme zu haben. Das unterscheidet sich aber stark von Kamera zu Kamera.

Alle Kamerahersteller geben Informationen darüber, wie man deren Bildprofile richtig belichtet soll. Oft stehen darin bestimmte Werte für Hauttöne oder für Graukarten, die man auf einen bestimmten Belichtungswert bringen sollte. Wie genau das funktioniert, wurde bereits im vorherigen Kapitel erklärt.

Ein weiterer Ansatz für eine gute Belichtung ist das ETTR (Exposing to the right) Prinzip. Hierbei wird das Bild so hell wie möglich belichtet, ohne, dass Informationen in den hellen Bildbereichen verloren gehen. In der Post Produktion wird das Videomaterial dann wieder etwas abgedunkelt und auf ein normales Level gebracht. Man belichtet deshalb das Bild „nach rechts“, weil man hier von einem Histogramm ausgeht. Wie im vorherigen Kapitel angesprochen ist ganz links im Histogramm schwarz und ganz rechts Weiß.

Abbildung 3‑35: Oben ist das Bild stark unterbelichtet und unten deutlich überbelichtet Quelle: Eigene DarstellungIm ersten Moment klingt diese Methode etwas umständlich. Der große Vorteil von ETTR ist jedoch, dass wir die komplette Dynamik den Sensor bestmöglich ausnützen. Je heller wir die dunklen Bildbereiche belichtet können, desto mehr Abstand haben diese dunklen Bildinformationen von unserem Noise-Floor. Wenn das Videomaterial dann später wieder abdunkeln, drücken wir auch den Noise-Floor entsprechend mit nach unten. So können wir das Rauschen im Bild minimieren und eine maximale Dynamik und Qualität erreichen. Genauer gesagt erhöhen wir unsere „Signal-to-Noise Ratio“ (Signal-Rausch-Verhältnis). Speziell bei LOG-Bildprofilen ist eine Überbelichtung von rund einer Blendenstufe (teils auch mehr) ratsam, um die maximale Bildqualität aus dem Videomaterial zu holen.

Abbildung 3‑36: Das Bild wurde nach dem ETTR-Prinzip belichtet Quelle: Eigene Darstellung

 

3.3 Weißabgleich & Graukarte

Abbildung 3‑37: Kelvin Farbskala Quelle: Sebastian Nikolai / nikolaidesign.de

Zunächst einmal ist es wichtig zu verstehen, dass Licht nicht immer gleich Licht ist. Über den Tag verteilt hat Licht eine unterschiedliche Farbtemperatur. Diese Farbtemperatur wird in Kelvin angegeben. Jedoch hat nicht nur das Tageslicht eine schwankende Farbtemperatur, sondern auch verschiedene Leuchtmittel und Lampen haben unterschiedliche Farbtemperaturen. In Abbildung 3-37 ist die Kelvin-Farbtemperaturskala und einige entsprechende Beispiele zu sehen.

Unser menschliches Auge gleicht diese Farbunterschiede extrem gut aus. Im normalen Alltag fällt uns kaum auf, dass wir mit unterschiedlichen Farbtemperaturen zu tun haben. Die Kameras sind hier leider nicht so fähig. Damit die Kameras weiß auch als weiß darstellen können, müssen wir diesen mitteilen, welche Farbtemperatur gerade herrscht. Machen wir dies nicht, verfärbt sich das komplette Bild entweder in eine kühle oder warme Richtung und verfälscht somit unsere komplette Farbwiedergabe. Einige Leuchtstoffe haben auch einen Grün- oder Magentastich, welcher ebenfalls korrigiert werden muss. Entsprechend müssen wir immer einen Weißabgleich in der Kamera vornehmen. Machen wir dies nicht, werden diese „verfälschten“ Farben in das Videomaterial eingespeichert und können im besten Fall nur in der Post Produktion korrigiert werden. Das hat aber immer einen Qualitätsverlust zur Folge. Speziell bei 8-Bit Codecs ist es extrem wichtig, den Weißabgleich von vorneherein richtig zu setzten, da man durch die geringe Bit-Tiefe nur wenig Spielraum in der Nachbearbeitung hat.

Abbildung 3‑38: Links 2.500 K, Mittig 5.600 Kelvin und Rechts 9.900 Kelvin Quelle: Eigene Darstellung

Wie man in Abbildung 3-38 gut sieht, spielt der Weißabgleich eine essenzielle Rolle in der Farbwiedergabe der Kamera. Wird der Kelvinwert zu warm angegeben, bekommt das Bild einen starken Blaustich. Geben wir einen zu kühlen Weißabgleich vor, korrigiert die Kamera das Bild zu sehr in das warme Spektrum. Nur ein richtiger Weißabgleich (wie in der Mitte bei 5.600 Kelvin), erzielt eine akkurate Farbwiedergabe.

Viele Kameras besitzen auch einen automatischen Weißabgleich. Hierbei versucht die Kamera zu ermitteln, welche Farbtemperatur gerade anliegt und passt dann den Weißabgleich entsprechend intern an. Dieser automatische Weißabgleich ist mittlerweile ziemlich gut geworden und für Fotoaufnahmen würde ich diesen auch ohne größere Bedenken empfehlen. Vor allem wenn man Bilder im RAW Format aufnimmt. Dazu aber später noch mehr.

Für die Videografie können durch einen automatischen Weißabgleich jedoch einige Probleme entstehen. So misst und evaluiert dieser während der kompletten Aufnahme Konstanz die Farbtemperatur. Schwenkt die Kamera jedoch auf verschiedene Objekte oder ist gar die Sonne kurz zu sehen, kann es sein, dass die Kamera sehr abrupte und starke Änderungen an der Farbtemperatur vornimmt. Das Problem kennt man sicherlich von Handykameras, die teils sehr schnell den Weißabgleich ändern. Hier will man immer den ausgewählten Weißabgleich beibehalten. Das erspart unter Umständen auch viel Arbeit in der Post.

RAW Aufnahmen haben auch hier wieder den großen Vorteil, dass der Weißabgleich verlustfrei in der Post Produktion angepasst werden kann. Denn Weißabgleich findet nicht auf der Sensorebene, sondern während der Signalverarbeitung statt. Die RAW Daten werden also bereits vorher gespeichert und haben so eine größere Flexibilität, also normale Codecs.

Den Weißabgleich stellt man am besten direkt in der Kamera auf einen möglichst genau Wert. Dabei kann man sich auf bekannte Richtwerte wie z. B. in Abbildung 3-37 beziehen. Viele dieser Werte sind auch als Voreinstellungen in den Kameras enthalten. Ansonsten kann man auch einen genauen Kelvin Wert in 50. oder 100. Schritten einstellen.

Die wohl beste und genauste Möglichkeit ist jedoch, den Weißabgleich mit einer Grau- oder Weißkarte zu machen. Es gibt speziell genormte 18 % Graukarten oder farbreine Weißkarten, welche zum Beispiel neben die Schauspielerin gehalten wird, welche gefilmt werden soll und wo das Set ausgeleuchtet ist. Die Kamera kann nun die Farbwerte von der Karte ablesen und den Weißabgleich inklusive einem Grün- oder Magentastich korrigieren. Mit dieser Methode hat man dazu immer einen perfekten Weißabgleich und somit die Best mögliche Farbreproduktion.

 

3.4 Zusätzliches

Darüber hinaus gibt es noch weitere Optionen und Funktionen, die bei der Auswahl oder der Arbeit mit einer Kamera ausschlaggebend sein können. Die Optionen oder Features haben zwar oft keinen direkten Einfluss auf die Bildqualität, können dafür jedoch in manchen Situationen sehr hilfreich sein.

3.4.1 Autofokus

Eine Technik, die in den vergangenen Jahren einen extremen Sprung hingelegt hat, ist der Videoautofokus. Lange Zeit war der Autofokus höchsten im Bereich der Fotografie einsetzbar. Und selbst dann nur mit starken Limitierungen. Hier haben vor allem Canon und Sony eine kleine Innovation losgetreten. Moderne SLR Kameras haben einen sehr intelligenten Autofokus, der je nach Szene und Präferenz genau eingestellt werden kann. Gesichter oder sogar Augen von Menschen oder Tieren können in Realzeit verfolgt und so im Fokus gehalten werden.

Aufnahmen, die vor einigen Jahren noch eine genaue Planung und einen Fokus-Puller benötigt hätten, können nun von einem einzelnen Kameramann erstellt werden. Vor allem kleinere Produktionen oder Run-and-Gun Jobs (z. B. Hochzeiten) profitieren stark von einem zuverlässigen Autofokus.

Jedoch sind noch nicht alle Kamerahersteller auf der Höhe von Sony oder Canon. Kameras von Panasonic oder Blackmagic haben in diesem Bereich noch großen Nachholbedarf. Interessant ist auch, dass mittlerweile teurere Cinema-Kameras wie die RED V-Raptor auf einen soliden Autofokus setzten. Zwar fehlt auch dieser Kamera noch die intelligenten Algorithmen von Sony oder Canon, es ist doch gut zu sehen, dass weitere Firmen auf diesem Feld aufbauen. Denn die Aussage, dass Autofokus rein für den Low-Budget-Bereich ist, würde ich so nicht mehr unterschreiben. Zwar kann der Autofokus keinen erfahrenen Fokus-Puller ersetzten, jedoch ermöglicht ein guter Autofokus eine extreme Treffsicherheit bei schwierigen Aufnahmen wie z. B. im Sport, wo nicht immer ein Fokus-Puller zur Verfügung steht.

 

3.4.2 Sensorstabilisierung

Durch den Wegfall des Spiegels haben einige Hersteller von Spiegellosen Systemkameras den zusätzlichen Platz für eine Sensorstabilisierung genutzt. Diese Stabilisierung versucht den Sensor in Verbindung mit dem Objektiv so stabil wie möglich zu halten. Da viele Kameras von Panasonic, Sony oder Canon eine solche Stabilisierung habe, muss das Objektiv nicht zwangsläufig stabilisiert sein. Dadurch können Objektive kleiner, leichter und günstiger gebaut werden. Für längere Brennweiten von 70 mm oder höher lohnt sich eine eingebaute Stabilisierung im Objektiv jedoch trotzdem, da diese Wackler von einer Sensorstabilisierung nicht so gut korrigiert werden können.

Ähnlich wie der Autofokus ist diese Technologie auch ein Vorteil für kleinere Produktionen oder Ein-Mann Jobs. Für schnelle Run-and-Gun und Handheld Aufnahmen kann ein stabilisierter Sensor ein großer Vorteil sein, da das Videomaterial deutlich weniger Wackler aufweist und weniger in der Post Produktion stabilisiert werden muss.

Die Stabilisierung der verschiedenen Kamerahersteller ist jedoch auch sehr unterschiedlich. Die wohl beste Stabilisierung findet man in Kameras von Panasonic wie der S1H oder der GH5.

 

3.4.3 Audio

Da die Kameras in den vergangenen Jahren immer kompakter geworden sind, wurde an der einen oder anderen Stelle Abstriche vorgenommen. Einer dieser Punkte ist der Audiobereich. Viele der aktuellen SLR-Kameras haben nur einen klassischen 3,5-mm-Klinkenanschluss (TRS). Damit lassen sich zwar einige On-Camera Mikrofone anschließen, jedoch kein hochwertigeres Equipment. Die größeren Kameras wie eine Canon C500 oder eine Sony FX6 haben eingebaute XLR-Anschlüsse, die auch Mikrofone mit Phantomspannung versorgen können. Dazu haben die größeren Kameras dedizierte Audioknöpfe und Regler, wo Einstellungen schnell erreicht und geändert werden können.

Für kleinere Kameras gibt es jedoch auch Möglichkeiten, direkt In-Camera eine gute Audioqualität zu bekommen. So gibt es zum Beispiel von Sony mit dem XLR-K3M ein externes Audio Modul, dass über den digitalen Blitzschuh oder über den Klinkenstecker mit der Kamera verbunden ist. Dieses Modul hat ebenfalls spezielle Audioregler und kann Mikrofone mit Phantomspeisung versorgen.

 

3.4.4 Speichertypen

Der bekannteste Speichertyp stellt die SD (Secure Digital) Speicherkarten dar. Seit rund zwei Jahrzehnten gibt es dieses Medium und stellt auch heute noch den Standard in den meisten Einsteiger und Semi-Profi Kameramodellen dar. Speziell die modernen SD-Karten, die auf das UHS-II-Interface setzten, haben eine Datenrate von 312 MB/s und können somit auch hochauflösende Videodateien ohne Probleme speichern.

Hier sind wir auch schon bei einem wichtigen Punkt. Die wichtigste Frage bei der Auswahl des Speichermediums stellt die benötigte Schreibleistung dar. Wenn nur Full-HD, 8 Bit Videomaterial, das mit einem Long-GOP Codec bereits komprimiert wurde, aufgezeichnet wird, müssen deutlich weniger Daten pro Sekunde auf diese Karte geschrieben werden als bei einem 8k RAW Video. Daher ist es immer wichtig zu recherchieren, welches das richtige Speichermedium für die jeweilige Kamera ist. Teurere Kameras setzten oft auf den CFexpress Karten, welche je nach Kartentyp eine theoretische Performance von 1000-4000 MB/s haben. Also ein Vielfaches von normalen SD Karten. Das Aufzeichnen auf SSD-Festplatten ist auch für viele Leute eine immer häufigere Option. Einige Kameras wie die Blackmagic Cinema Pocket 4k unterstützten die Aufnahme auf eine externe SSD über USB-C. Ansonsten ist auch die Aufnahme über einen externen Monitor wie zum Beispiel dem Atomos Ninja V möglich. Der Vorteil von externen SSDs ist die Lese und Schreibgeschwindigkeit, die je nach Model zwischen 500-3.000 MB/s beträgt und die verhältnismäßig geringen Kosten pro Gigabyte an Speicher. Zahlt man für eine CFexpress-Karte mit 512 GB stolze 490 €, so kostet eine gleich große SSD nur rund 80 €. Selbst eine 4 TB SSD würde noch weniger kosten als eine einzige CFexpress-Karte.

 

3.4.5 PAL & NTSC

In der heutigen Zeit des Internets führen die Optionen PAL und NTSC oftmals zu Verwirrung. Was auch durchaus verständlich ist, da diese beiden Standards noch aus den frühen Tagen der Fernsehindustrie kommen.

Der PAL Fernsehstandard wurde in Deutschland verwendet, wo hingegen NTSC in den USA Verwendung fand. Die beiden Varianten definierten, in welcher Form und Frequenz die Bild- und Tondaten an den Empfänger übermittelt wurden. Wichtig war vor allem die Anzahl der Bilder pro Sekunde (frames per secound; fps). In den PAL-Regionen gab es eine Bildwiederholfrequenz von 50 Hz. Somit konnten dort 50i (i = interlanced) Halbbilder oder 25p (p = progressiv) Vollbilder pro Sekunde übertragen werden. In den USA hingegen lief NTSC mit 60 Hz und somit 60i (genau genommen 59,94i) Halbbildern und 30p (29,97p) Vollbildern pro Sekunde. Dieser Unterschied ergab sich durch die anliegende Wechselspannung in den jeweiligen Ländern.

In der heutigen Zeit ist der Unterschied quasi nichtig. Wenn man nicht unbedingt mit einem TV oder DVD Release seines neusten Spielfilmes plant, macht es wenig Unterschied. Moderne Plattformen wie YouTube spielen alle gängigen Bildraten von 24p bis hin zu 60p für eine sehr flüssige Wiedergabe ohne Probleme ab.

Einen kleinen Haken hat das Ganze jedoch. Kameras, die auf PAL eingestellt sind, können oftmals weniger Bilder pro Sekunde aufnehmen als mit der NTSC-Einstellung. Bei der Sony 7S III kann man in PAL lediglich bis zu 100p aufnehmen, anstatt die 120p in NTSC.

 

3.4.6 LUTs

Wie in Kapitel 3.1.8.2 besprochen haben, bieten LOG Bildprofile durch ihre höhere Dynamik einen enormen Vorteil gegenüber anderen Bildprofilen. Wie wir jedoch auch gesehen haben, sind LOG Bildprofile extrem flach, haben also einen geringen Kontrastumfang und stark entsättigte Farben. Das ist aber auch gleichzeitig ein Vorteil, da man in der Post Produktion das Bild nach seinen Wünschen und Vorstellungen in eine kreative Richtung verändern kann. Man hat mit LOG also eine sehr gute und neutrale Ausgangslage, für weitere Anpassungen.

Da LOG jedoch nicht linear ist, haben viele Personen bei der Nachbearbeitung Schwierigkeiten, dass Bild zurück in einen REC.709-Farbraum zu bekommen und die Farben und Kontraste natürlich wirken zu lassen.

Hier kommen die LUTs (look up table) ins Spiel. LUTs sind vorgefertigte Parameter, die das Bild in verschiedene Weise verändern. LUTs nehmen Anpassungen am Gamma, Kontrast, der Sättigung und den Farben vor. Man könnte auch sagen, LUTs sind eine Art Filter für das Bild – jedoch deutlich leistungsstärker und vielseitiger als das.

Es gibt zum Beispiel offizielle „Conversion LUTs“ der jeweiligen Hersteller, die ein aufgenommenes LOG Bild, in den REC.709-Farbraum konvertieren. Dabei werden die zusätzlichen vorhanden LOG-Bildinformationen so gut wie möglich beibehalten. Mithilfe dieser Conversion LUTs hat man innerhalb von Sekunden ein neutral aussehendes Bild.

Es gibt jedoch auch „Creative LUTs“, die bereits einen gewissen Look in das Bild implementieren. Der wohl bekannteste Look ist sicherlich der „Teal & Orange“-Look, welcher sich die komplementäre Farbenlehre zunutze macht. Ansonsten gibt es noch „Monitoring LUTs“. Diese sind in Kameras oder externen Monitoren eingebaut und konvertieren das LOG Bild in Realzeit in ein REC.709-Bild mit satten Farben und Kontrasten. Dadurch fällt es leichter, das aktuelle Bild besser einzuschätzen.

 

3.5 DSLR, Spiegellos oder Videokamera

Zum Abschluss dieses Kapitels bleibt nun die Frage offen, welche Vor- und Nachteile die verschiedenen Kamerasysteme haben und welche Technik und Formfaktor sich auch in den nächsten Jahren weiter durchsetzen wird.

Sprechen wir direkt über die Spiegelreflexkameras (DLSRs). Diese hatten in den vergangenen Jahrzehnten einen sehr großen Marktanteil bei Fotografen. Als dann mit der Canon 5D II die erste Vollformat DSLR-Kamera auch Full-HD Videos aufnehmen konnte, gab es auch einen immer stärkeren DSLR-Markt für Videografen. Einen richtigen „Durchbruch“ gab es aber erst später mit den neueren Spiegellosen Kameras. Für mich persönlich haben DSLR Kameras keine große Bedeutung mehr in der Zukunft. Und das sehen auch die meisten Kamerahersteller so. Alle drei großen Kameraherstellern (Sony, Canon, Nikon) wie auch viele der kleineren Marken (Fuji, Panasonic, Black Magic, etc.) sind nahezu vollständig auf die spiegellose Technik umgestiegen.

DSLMs (Digital Single Lens Mirrorless) haben in vielen Belangen Vorteile gegenüber ihren älteren DSLR Brüdern. So können moderne Kameras ohne den Spiegel kleiner und leichter gebaut werden. Andere Objektive können leichter adaptiert werden, es ist Platz für eine Sensorstabilisierung und moderne elektronische Sucher bieten ebenfalls große Vorteile gegenüber den alten Prisma-Suchern.

Mittlerweile gibt es für jede Preisklasse gute DSLM Angebote. Entsprechend würde ich immer mit der aktuellen Technik gehen. Vor allem im Bereich der Videografie führt aktuell nichts an DSLMs vorbei.

Eine etwas andere Frage stellt sich zwischen DSLM und kleineren Videokameras wie der Canon C300 Reihe, Sony FX6 / FX9 oder Ähnlichem. Hier ist der größte Unterschied der Formfaktor und das jeweilige Einsatzgebiet. Videokameras haben oftmals ein spezielles Button-Layout, dass schnelle Änderungen ermöglicht, ohne dabei lange in den Menüs suchen zu müssen. Diese Kameras sind darauf ausgelegt, unter schwierigen und wechselnden Bedingungen die größtmögliche Verlässlichkeit und Flexibilität zu gewährleisten. Videokameras besitzen meist fest eingebaute Audioanschlüsse und Audiokontrollmöglichkeiten, die das Aufnehmen von zum Beispiel Interviews mit gutem Audio direkt in der Kamera ermöglicht. Die Ergonomie von Videokameras ist meistens auf einen Handheld- oder Shoulder-Rig Einsatz ausgelegt.

All diese Punkte kann man zwar auch mit einer DSLM umsetzten, jedoch wird dafür meistens extra Equipment und Rigging benötigt. DSLM sind durch ihre extrem kompakte Grundmaße extrem vielseitig einsetzbar. Egal ob Handheld, auf einem Gimbal, in einem Auto montiert oder an einer Cable-Cam. DSLM sind extrem vielseitig und haben dabei quasi keine Abstriche mehr in Sachen Bildqualität ihren größeren Brüdern gegenüber.

Das macht die Spiegellosen Kameras in meinen Augen den perfekten Start für angehende Filmemacher. Sie bieten eine gute Basis und bieten Platz für Wachstum in ein professionelles Umfeld. Denn mit ein paar Erweiterungen kann man ohne Probleme auch einen vollständigen Spielfilm mit den aktuellen Kameras drehen.

Hat man jedoch eher Run-and-Gun Jobs, wo viele Aufnahmen in kurzer Zeit anstehen oder man schnell auf eine neue Situation reagieren muss, haben auch hier DSLMs durch ihre kompakte Größe einen enormen Vorteil. Profi-Videokameras sind groß, schwer und lassen sich nicht so einfach über zehn Stunden hinweg auf einer Hochzeit bedienen (ganz davon abgesehen, dass solch riesige Kameras nicht gerade diskret sind). Natürlich haben auch Videokameras ihre Vorteile und speziellen Nutzen. In den allermeisten Fällen würde ich jedoch zu einer DSLM-Variante raten.

 

3.6 Die richtige Kamera finden

Diese Frage hat sich wahrscheinlich schon so ziemlich jeder Foto- oder Videograf gestellt: Welche Kamera soll ich mir kaufen?

In den letzten Jahren hat sich viel im Bereich der Spiegellosen Kameras getan. Viele Firmen haben eigene Modelle auf den Markt gebracht und den Kampf um die Konsumenten noch weiter verschärft. Zu unserem Vorteil! Denn Wettbewerb belebt den Markt. Und so kann man mittlerweile sicher sagen, dass für jeden eine passende Kamera und ein passendes System am Markt vorhanden ist. Da die Zukunft ausschließlich in richtig DSLMs zeigt, würde ich nicht empfehlen, sich eine DSLR zu kaufen. Viele Hersteller haben sich bereits dazu geäußert, keine weiteren Kameras mit Spiegel mehr zu produzieren. Es ist also nicht ratsam, auf eine Technik (und auf ein System) zu setzten, dass langfristig nicht mehr weiter unterstützt wird und keine Erneuerungen mehr erhält.

Ich schreibe hier bewusst System, da die Wahl für die richtige Kamera nicht alleinig an der Kameratechnik selbst ausgerichtet werden sollte. Zu einer Kamera gehört mehr dazu als nur der Kamera-Body selbst. Die beste Kamera nützt nichts, wenn es nicht genügen Objektive gibt, die in meinen Preisrahmen passen und meine Bedürfnisse abdecken. Ebenso ist es wichtig, dass die Software und Hardware stetig weiterentwickelt wird. Vielleicht ist man vier Jahre zufrieden mit seiner Kamera und möchte auf ein neues Modell wechseln und seine Objektivsammlung weiter nutzen. Wenn aber kaum (oder im schlimmsten Fall keine) neuen Kamera von diesem Hersteller erscheinen, muss ich alle Objektive verkaufen und das komplette System wieder wechseln.

Im professionellen Umfeld wird man eine Kamera wahrscheinlich zwischen zwei und vier Jahre lang nutzen. Da man gute Objektive über einen deutlichen längeren Zeitraum verwendet (ein sachgerechter Umgang vorausgesetzt), macht es durchaus Sinn, die Objektivauswahl mit in die Entscheidung einzubeziehen.

Abbildung 3‑39: Die Sony 7 IV Quelle: Sony

Es gibt ein Kamerasystem, das ich zum aktuellen Zeitraum (Stand: 01.05.2022) besonders Empfehlen kann. Nicht allein wegen der eigentlichen Kameratechnik, sondern wegen dem vielschichtigen Angebot, einem guten Preis-Leistungsverhältnis und besonders wegen der großen Objektivauswahl: den Sony E-Mount. Anders als Hersteller wie Canon oder Nikon, hat Sony sich von Anfang an dazu entschieden, seinen Anschluss für Dritthersteller zu öffnen. Dadurch konnten Hersteller wie Sigma oder Tamron (und noch viele weitere!) früh mit in das System einsteigen und entsprechende Objektive für den Sony E-Mount produzieren. Das Resultat dieser Entscheidung ist eine Vielzahl und unterschiedlichen Objektiven, in jeglichen Preisklassen. Keines der anderen Systeme bietet auch nur im Ansatz eine solche Vielfalt. Sowohl für den schmalen Geldbeutel als auch für den Profi.
Dazu kommt noch, dass Sony die erste Firma war, die Spiegellose Kameras vorangetrieben haben. Zwar wurde dieser technologischer Vorsprung in den vergangenen Jahren immer kleiner, jedoch hat Sony bei der ein oder anderen Technologie oft noch einen kleinen Vorsprung. Defacto leistet sich Sony in keiner Disziplin einen wirklichen Patzer. Wo hingegen man bei den anderen Herstellern immer kleinere bis große Abstriche machen muss, stellt Sony ein guter Allrounder dar. Sowohl bei der Video- wie auch bei der Fotografie.

Für den schmalen Geldbeutel würde ich eine Sony Alpha 6400 (APS-C) oder eine Sony Alpha 7 III (Vollformat) empfehlen. Wenn es etwas mehr kosten darf, bietet die Sony Alpha 7 IV einige Vorteile im Videobereich und aktuell einer der besten Allrounder am Markt. Wer bereits Erfahrung im Bereich der Videografie hat und noch eine Stufe höher möchte, ist mit der Sony 7S III sehr gut beraten.

Abbildung 3‑40: Die Canon EOS R5C Quelle: Canon

Direkt hinter Sony würde ich aktuell Canon einstufen. Der große Punkt, an dem Canon nach Nachholbedarf hat, ist die aktuelle Objektivauswahl. Canon hat die Anschlussinformationen nicht öffentlich gemacht und so die Produktion von Objektiven für Dritthersteller extrem erschwert. Ein durchaus großer Nachteil für den Endkonsumenten. Zwar hat Canon viele gute native Objektive für den RF-Mount – lässt sich diese aber auch entsprechend bezahlen. Günstige und trotzdem gute Alternativen sind momentan noch rar. Wenn sich die Auswahl der Objektive noch etwas erhöht, bietet das Spiegellose System von Canon eine gute Alternative zum Sony E-Mount.
Denn mit der neuen Canon EOS R5C wurde vor kurzen eine sehr interessante Kamera für Filmemacher vorgestellt. Die R5C hat ein besseres Kühlsystem als die Canon EOS R5 spendiert bekommen und hat dadurch kaum noch Überhitzungsprobleme, welche die R5 zuvor quasi unbrauchbar gemacht haben. Mit dieser Kamera bietet Canon nun durchaus ein sehr interessantes, wenn auch nicht günstiges, Gesamtpaket an. Wirklich günstige Alternativen gibt es im Canon Segment jedoch aktuell nicht. Viele Kameras neben der EOS R5C haben veraltete Ausstattung oder werden durch ihre Software stark limitiert. Im Bereich um die 2.000 € würde ich daher aktuell von Canon abraten.

Abbildung 3‑41: Die Blackmagic Pocket Cinema Camera 6k Quelle: Blackmagic Design

Möchte man mehr in den szenischen Bereich, so bietet sich Panasonic oder Blackmagic an. Letztere haben mit der Blackmagic Cinema Pocket 4k oder 6k (Pro) sehr attraktive Kameras im Angebot. Die Pocket Kameras bietet eine enorme Bildqualität für das Geld, benötigen aber weiteres Zubehör, um die Kameras wirklich einsatzbereit zu machen. Dazu gehören externe Speichermedien, externe Akkus und in den meisten Fällen ein Speed-Booster. Zusätzlich muss man sich bei Blackmagic Kameras bewusst sein, dass der Autofokus in der Praxis kaum verwendbar ist.

 

 

Panasonic hat mit der GH5(s) und der S1(H) ebenfalls einige interessante Kameras im petto. Diese haben ebenfalls eine sehr gute Bildqualität und umfangreiche Features für Filmemacher. Jedoch hinkt Panasonic in einigen Bereich sehr hinterher. Vor allem der Autofokus ist bei Sony und Canon auf einem anderen Level. Ähnlich wie bei Blackmagic Kameras würde ich den Einsatz des Autofokus nicht empfehlen. Entsprechend muss man also immer manuell fokussieren. Auch die Auswahl an Objektiven ist noch stark limitiert und teils sehr teuer.

Schlussendlich ist die Wahl der richtigen Kamera oder vielmehr des richtigen Kamerasystems sehr abhängig von individuellen Faktoren. Diese sollten jedoch nicht allein ein einzelnes Kameramodell sein, sondern die Gesamtheit des jeweiligen Systems.