AI Fans kommen aus dem Staunen nicht mehr raus. OpenAIs neuestes KI-Produkt, das Text-to-Video-Tool Sora, krönt eine Woche, die in der Digitalszene bereits von großen Updates aus dem Hause der KI-Expert:innen beherrscht wurde. Einerseits startete OpenAI jüngst den Test der Memory-Funktion für ChatGPT (und GPTs), die die Konversationen langfristig deutlich optimieren kann. Andererseits soll das Unternehmen an einem KI-basierten Suchdienst arbeiten, der nicht weniger vorhaben könnte, als Google im AI-Zeitalter Konkurrenz zu machen.

Mit Sora legt OpenAI jetzt ein Tool in die Hände erster Tester:innen, das Prompts in besonders realitätsnahe Videos zu verwandeln imstande ist. Obwohl das Unternehmen auch auf die Schwächen des Tools hinweist, zeigt sich die Branche von den Fähigkeiten Soras verblüfft – aber auch besorgt.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Sora: Mit wenigen Worten realistische Videos erstellen – so sehen sie aus

Das neue KI-Video-Tool von OpenAI steht in direkter Konkurrenz zu Tools wie Synthesia, Oxolo oder Runways Gen-2. Letzteres lieferte erst kürzlich mit dem Multi Motion Brush neue Optionen, um Videokreationen vielfältige Bewegungen zu verleihen.

Introducing Multi Motion Brush.

Control multiple areas of your video generations with independent motion.

Available now for Gen-2 at https://t.co/ekldoIshdw pic.twitter.com/ZZoBWczNkg

— Runway (@runwayml) January 18, 2024

Sora kann laut dem Blog Post von OpenAI noch mehr:

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Vor allem das Verständnis der Bewegungen und Details von Tieren, Menschen und Objekten, wie sie im Real Life aussehen könnten und sollten, zeigt sich in ersten Videokreationen, die das Unternehmen präsentiert.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

Derzeit kursieren auf sozialen Medien diverse Sora-Videos, die Creator und Expert:innen teilen. So zeigt der Hashtag-Erfinder und Tech-Experte Chris Messina auf Threads eine Kreation, die OpenAI als Header für den aktuellen Blog Post nutzt.

Beitrag von @chris
Auf Threads ansehen

Der bekannte Video-Creator Marques Brownlee weist auf X ebenfalls auf die neuen Sora-Videos hin und schreibt, dass diese auch einen Grund zur Beunruhigung darstellen dürften.

Every single one of these videos is AI-generated, and if this doesn’t concern you at least a little bit, nothing will

The newest model: https://t.co/zkDWU8Be9S

(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw

— Marques Brownlee (@MKBHD) February 15, 2024

Immerhin können besonders realistisch wirkende KI-Videos auch zu Zwecken der Desinformation, Verunglimpfung oder tatsachenfremden Berichterstattung genutzt werden. Zudem dürften manche Video-Creator künftig ebenfalls vor dem Problem stehen, dass ihnen AI-Tools Aufträge streitig machen könnten.

OpenAI setzt nach eigenen Angaben jedoch bei der Entwicklung Soras stark auf Sicherheitsaspekte – und macht das Tool vorerst nur einigen ausgewählten Personen verfügbar.

Erst die Sicherheit, dann der Roll-out in OpenAI-Modellen

Auf X erklärt OpenAI, dass das Video-Tool zunächst von Expert:innen getestet wird, um Voreingenommenheit, Desinformationsmomente und dergleichen zu erkennen und möglichst zu beheben. Als Sicherheitsgrundlage dienen OpenAI die Standards, die auch für das Bildgenerierungs-Tool DALL-E 3 angesetzt werden.

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who are adversarially testing the model.

Die Videokreation soll das Erstellen von Gewaltszenen, sexuellen Inhalten, Hassbildern, Ähnlichkeiten zu Berühmtheiten etc. nicht ermöglichen. Der Text-Classifier soll entsprechende Prompts ablehnen. Auch soll ein Image Classifier dafür sorgen, dass die Videos den Usern nur gezeigt werden, wenn sie den Richtlinien des Unternehmens entsprechen. Ein technischer Report gibt noch mehr über die Details zum Tool preis.

Einige Künstler:innen, Designer:innen und Filmemacher:innen erhalten jedoch schon Zugriff, um dem Unternehmen Feedback bezüglich der kreativen Prozesse und Wertigkeit des Tools zu liefern. Auf Feedback von Digital-Usern und schlichtweg Interessierten hofft das Unternehmen aber ebenfalls. So fragte CEO Sam Altman auf X nach Prompts, aus denen Sora Videos machen soll.

we’d like to show you what sora can do, please reply with captions for videos you’d like to see and we’ll start making some!

— Sam Altman (@sama) February 15, 2024

Daraufhin lieferten einige User Prompts, die Sora mit großem Detailreichtum in Videos umwandelte.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw

— Sam Altman (@sama) February 15, 2024

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX

— Sam Altman (@sama) February 15, 2024

Sora setzt auf Transformer Architecture (wie GPT) und basiert auf Entwicklungsarbeit aus aus dem GPT- und DALL-E-Kontext. Noch gibt es aber auch Probleme bei der Darstellung. So könnten bei der Videokreation links und rechts vertauscht werden, Ursache und Wirkung werden nicht immer sinnvoll in Bezug gestellt (ein aus einem Keks gebissenes Stück könnte kurz darauf wieder im Keks vorhanden sein) und längere Kamerafahrten können zu verwirrenden Einstellungen führen. Mehr Testing und noch mehr Weiterentwicklung könnten diese Probleme im Lauf der Zeit jedoch beheben.

Wann Sora für die Öffentlichkeit zugänglich ist und in welchen Tools (etwa ChatGPT) es integriert wird, ist noch unklar.

Meilenstein auf dem Weg zur Artificial General Intelligence (AGI)?

Da Sora das Ziel hat, mithilfe von KI die Welt in Videos möglichst realitätsgetreu nachzubilden oder zu simulieren, ist das Tool laut OpenAI ein wichtiger Faktor bei der Arbeit, die zur Entwicklung einer Artificial General Intelligence (AGI) führen könnte.

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

Neben OpenAI arbeitet beispielsweise auch Meta an eigenen KI-Video-Tools – und an der Entwicklung einer AGI. Ein neues V-JEPA genanntes KI-Modell des Konzerns lernt laut Mark Sullivans Beitrag für Fast Company dazu, indem es Videos rezipiert. Metas Chief AI Scientist Yann LeCun sieht in dieser Entwicklung ebenfalls einen Schritt in Richtung AGI. Meta möchte Videos künftig auch Audioelemente hinzufügen, um noch mehr Daten zum Lernen für die KI zu liefern.

Die Weiterentwicklung von KI-Tools und -Modellen hängt stark mit Videoinhalten zusammen. Im November erklärte Google, dass der KI-Bot Bard (jetzt Gemini) in der Lage ist, YouTube-Videos zu verstehen und sich über diese mit Usern auszutauschen. Das fördert im KI-System auch das Verständnis für die Kreation. Neben OpenAI, Meta und Runway liefern diverse Unternehmen KI-Video-Tools. Kürzlich hat beispielsweise ByteDance, der Konzern hinter TikTok und Douyin, das innovative AI-Video-Tool Boximator vorgestellt.

Neuigkeiten

Leave a Reply

Your email address will not be published. Required fields are marked *