Nachdem die Welt der One-Shot-Produktionen noch nicht so wissenschaftlich erforscht ist, war die Suche nach Quellen zur Stabilisierung von Videos bzw. Filmen dieses Genres nicht sonderlich erfolgreich. Bei One-Shot-Productions wie beispielsweise Adolescence wurde mit Gimbals oder ähnlichem gearbeitet.
Deshalb geht es in diesem Blogpost um die Stabilisierung von Videomaterial im Generellen.
Die Instabilität von Videomaterial stellt nicht nur in der modernen Filmproduktion, sondern auch in der Post-Production oder auch in der alltäglichen Nutzung von Mobiltelefonen eine Herausforderung dar. Dazu zählen menschliches Zittern, unbeabsichtigte Kamera- bzw. Körperbewegungen oder auch andere natürliche Einflüsse, wie beispielsweise Erschütterungen beim Gehen oder gegebenenfalls auch Windverhältnisse. Dadurch wird nicht nur die visuelle Qualität verschlechtert, sondern auch die Nachbearbeitung erschwert sich.
Definition Videostabilisierung
Die Videostabilisierung bzw. Video Stabilization wird durch eine Reige an technologischen und algorithmischen Verfahren beschrieben, deren Primärziel es ist, eine unruhige oder störende Kamerabewegung in eine glatte und visuell ansprechende zu verwandeln, ohne die dabei intendierte Bewegung zu verfälschen. Zu diesen intendierten Bewegungen zählt beispielsweise ein bewusster Schwenk. Dabei ist dieses Verfahren sehr mathematisch (was mir zu Beginn nicht in diesem Ausmaß bewusst war). Die Bewegung einer Kamera lässt sich in zwei physikalische bzw. mathematische Hauptkomponente zerlegen: Die ebene genannte intentionale Bewegung, auch Niederfrequenzkomponente genannt, und die (stochastische) Störbewegung, oder Hochfrequenzkomponente. Durch mathematische Formeln und Filterungen wird versucht, diese Hochfrequenzkomponenten zu eliminieren.
Historischer Wandel der Videostabilisierung
Dieser Prozess der Videostabilisierung hat sich über die Jahre hinweg immer weiterentwickelt und verändert. Die Geschichte der Videostabilisierung beginnt bereits mit den ersten Bemühungen, eine Kamera von den physischen Einschränkungen eines menschlichen Körpers zu entkoppeln. Bereits mit dem Aufkommen von Kinos wurde stabile Kamerabewegungen und -Aufnahmen durch Dreibeinstative oder Dollys bzw. Schienenfahrzeuge ermöglicht.
In den frühen 1970er Jahren ermöglichte Kameramann und Erfinder Garrett Brown jedoch ein technologisch riesiger Fortschritt. Er suchte nach einer Möglichkeit, die Flexibilität einer Handkamera mit der Ruhe eines Schienenwagens zu kombinieren und entwickelte dadurch die Steadicam. Diese wurde auch 1975 bereits patentiert. Das Prinzip dieser Steadicam war recht simpel und basiert auf rein mechanischer Natur und dem Newton’schen Gesetz der Mechanik, insbesondere dem Trägheitsmoment. Mithilfe einer Art von Gimbal (auch: kardanisches Gelenk) entkoppelte sie die Kamera vom Körper des Kameraoperators. Der Schwerpunkt dieses Gesamtsystems wurde durch das präzise Anordnen von Monitor und Batterie am unteren Ende exakt in den Drehpunkt dieses kardanischen Gelenks gelegt. Stoßbewegungen des Kameraoperators, die durch beispielsweise durch Gehen oder Laufen entstehen, wurden durch einen federbalancierten Arm absorbiert. Diese Steadicams waren die Grundlagen für das heutige Konzept der Gimbals und revolutionierten außerdem die Kinoästhetik, wie beispielsweise im Film „Rocky“.
Mit der Digitalisierung kam auch die rasche Entwicklung von sogenannten MEMS, mikroelektromechanischen Systemen. Dadurch entstand zwischen den späten 2000er und den frühen 2010er Jahren ein Wandel: Die klassischen, passiv-mechanischen Schwebestative wurden von aktiven, elektronisch gesteuerten Systemen nach und nach ersetzt. Der Grund dafür war vor allem auch die große Verfügbarkeit von günstigen, leichten und vor allen Dingen sehr präzisen Trägheitssensoren und bürstenlosen Gleichstrommotoren, die es erlaubten, die dreidimensionalen, kardanischen Gelenke zu automatisieren. Damit entstand der moderne, elektronische 3-Achsen-Gimbal, die wir heute kennen.
Neue Forschungen in der Videostabilisierung
Weiterhin wird an der Videostabilisierung geforscht. Jüngere wissenschaftliche Forschungen haben nun datengetriebene Ansätze mittels Deep Learning die klassischen Methoden weitgehend revolutioniert. Beispielswiese gehen neu entwickelte Modelle, wie beispielsweise die Pixel-Wise Warping Stable Networks (PWStableNet) oder Architekturen, die auf gelernten optischen Flüssen basieren, über die bisherigen zweidimensionalen bzw. starren Transformationen hinaus. Solche Netzwerke werden mit riesigen Datensätzen gefüttert und trainiert, die meistens aus Paaren von synchron aufgenommenen instabilen und stabilen Videos bestehen. Diese Datensätze sind meist durch mechanische Robotersysteme oder Simulationen generiert. Diese neuronalen Netzwerke lernen dann, aus dem optischen Fluss einer aufgenommenen Szene die intrinsischen Bewegungskomponenten (von den sich bewegenden/dynamischen Objekten, z.B. ein vorbeigehender Mensch) von der globalen Kamerabewegung zu isolieren. Dabei applizieren sie ihr Netzwerk nicht auf eine einzige globale Matrix, sondern auf ein pixelweises Deformationsfeld, das sogenannte Per-Pixel Warp Field. Dadurch können nicht-lineare Verzerrungen, die beispielsweise bei sehr schnellen Vibrationen erzeugt werden, sehr gut korrigiert werden, ohne dass ein dreidimensionales Modell der Umgebung berechnet werden muss.