Entzaubert: Wo Video-KI an ihre Grenzen stößt

Bei aller Begeisterung für die Künstliche Intelligenz – es wird Zeit, ein paar Dinge geradezurücken: konkret die angeblichen Fähigkeiten von KI-Video-Tools, die – wie von Zauberhand – aus Texten oder Fotos angeblich großartige Bewegtbildkompositionen erschaffen. Diese Zauberhand ist jedoch allzu oft sehr menschlich. Denn GenAI ist, zumindest im Bereich Video, noch längst kein so kompetenter und vollständiger Content Creator, wie uns die Clips glauben machen wollen, die auf TikTok, Instagram oder LinkedIn zuletzt rauf und runter liefen.

Entzaubert: Wo Video-KI an Grenzen stößt

Dazu aber mehr unten – zunächst drei Beispiele:

Mein erster Wow-Effekt war im Sommer diese Dystopie in einer fiktiven Eiswüste, die das damals ganz neue Tool Midjourney 5.2 erstellt haben soll:

Noch viraler ging im Herbst diese Komposition einer Dame, die dank der neuen KI-Fähigkeiten von Photoshop über einen Fußballplatz direkt ins Traumschloss gelangt:

Sieh dir diesen Beitrag auf Instagram an
Ein Beitrag geteilt von Maria Pratt (@glamseasons)

Unser Art Department hat nun auch einmal die Video-KI bemüht – Jahreszeiten-adäquat:

Alle Videos sind auch mithilfe von GenAI entstanden, aber eben nur auch. Denn in Anwendungen wie den Foto-KIs Midjourney oder Dall-E beziehungsweise Video-Tools wie Pika oder Runway verfügt man gar nicht über genug Möglichkeiten, um die Clips in der gezeigten Komplexität zu erstellen. Sie sind sehr guter Helfer bei einzelnen Schritten im Kreativprozess, zwischendrin braucht es aber immer wieder den Menschen.

Oder, wie es OpenAI-CEO Sam Altman beschreibt: “The current systems are actually very good at doing tasks, but not very good at all at doing whole jobs.” Nehmt unsere Schneekugeln, die nur dank Mensch-Maschine-Interaktion zustande kamen:

Die Einzelbilder sind künstlich generierte Stills und stammen aus Midjourney.
Zur Bildbearbeitung hat unsere Grafikerin Photoshop genutzt, ganz händisch.
KI kommt wieder ins Spiel bei der Animation der Kugeln samt Schneegestöber – hier mit Runway.ai.
Der finale Zusammenschnitt wiederum ist das Werk einer sehr menschlichen Kollegin aus unserem Videoteam.

“The current systems are actually very good at doing tasks, but not very good at all at doing whole jobs.”

Ein anderes Beispiel: Bei einem Pitch haben wir bei In A Nutshell neulich das gesamte Kampagnendesign mit KI gestaltet. Dennoch mussten die Kolleg:innen anschließend zum Fotoshooting, weil die KI-Programme die Motive doch nicht in der nötigen Perfektion ausspuckten.

Fazit: Gute KI-Kreation braucht eben immer auch menschliche Fähigkeiten – nicht nur im Prompting, sondern auch im kreativen Finetuning. Nach dem „KI-kann-alles-Hype“ 2023 geht es daher nun darum, die Mensch-Maschine-Interaktion zu perfektionieren: Die Nase vorne haben werden diejenigen, die die individuellen Skills der Tools verstehen und sie – sinnvoll kombiniert – dort nutzen, wo sie uns Menschen wirklich überlegen sind. Den Rest sollten wir der Human Intelligence überlassen, um Produkte zu entwickeln, die zuvor ohne GenAI-Assistenz nicht umsetzbar oder viel zu aufwendig waren.

Einen großen Hebel für KI-(teil)generierte Video gibt es für Social Media und Websites: Wo heute noch statische Visuals üblich sind, werden die Fans und Follower in ein, zwei Jahren Bewegtbild erwarten. GenAI wird keine Imagefilme produzieren, dafür aber jegliche Art von „Gebrauchs-Videos“. Daher ist auch ein Preisverfall für viele Videoprodukte vorauszusehen. Denn in Zukunft werden sie sich in ähnlicher Geschwindigkeit produzieren lassen, wie heute aufwendige unbewegte Visuals. Umso wichtiger ist es für Unternehmen und Content Creator, die Mensch-Maschine-Interaktion zu perfektionieren.

Es gibt eben viel zu tun für alle wirklich Kreativen: nicht trotz, sondern dank KI.

Bildquelle: Midjourney/disruptive