Im Sora Hype: Jetzt kommt Audio-Background für AI-Videos von ElevenLabs, Meta und Co.

Mit dem Launch von Sora hat OpenAI der KI-Content-Produktion einen neuen Meilenstein verpasst. Zwar bieten auch andere Unternehmen Text-to-Video-Tools an – insbesondere Runway über Gen-2. Doch die realitätsnahen und detailgetreuen Videos von Sora sorgten in den Tagen nach der Veröffentlichung für viel Resonanz im Digitalraum und unter Expert:innen.

So schrieb der AI-Experte Stefan von Gagern auf LinkedIn etwa:

Filme werden niemals mehr so sein wie zuvor. Der KI-Videogenerator OpenAI Sora kam wie ein Paukenschlag […].

Die Vielschichtigkeit sowohl der Content-Elemente als auch der KI-Tools zeigt sich nun nicht zuletzt daran, dass der nächste Schritt bei der KI-Videogenerierung die Integration von passendem Audiohintergrund ist. Genau diese bietet ElevenLabs auf Basis von Künstlicher Intelligenz und zeigt eine Demonstration anhand der neuen Sora-Videos. Unterdessen möchte Meta ebenfalls hochfunktionale KI-Videos liefern – mit Sound und tiefem Verständnis der Realität.

Runways Gen-2:

Das ist das Text-to-Video-KI-Tool

© DeepMind – Unsplash

AI-Videos mit Audiohintergrund: ElevenLabs geht über Text-to-Speech hinaus

Das KI-Unternehmen ElevenLabs ist vor allem für Text-to-Speech Software bekannt. Auch das Quasi-Klonen von Stimmen gehört zum Repertoire des Unternehmens. Darauf deuten die KI-Experten Jens Polomski und Matt Navarra hin. Doch Luke Harries, Head of Growth bei Eleven Labs, erklärt auf X, dass das Unternehmen noch viel mehr zu bieten hat. So kann dieses auch KI-generierte Audiohintergründe erstellen, etwa zu Videos. Das funktioniert dann auch bei AI-basierten Clips. Dementsprechend zeigt ElevenLabs auf X, wie die populären Sora-Videos von OpenAI mit AI-Hintergrundaudio vom eigenen Unternehmen aussehen und sich anhören.

At ElevenLabs, we have only ever shown our text-to-speech models in public

However, we have so much more in development

And when OpenAI announced their Sora model — which generates incredible videos but without sound — we decided to show a sneak peek of our new product line… https://t.co/1Ab1nckYyF

— Luke Harries (@LukeHarries_) February 18, 2024

Harries erklärt zudem, dass ElevenLabs nicht nur Voice Over, sondern beispielsweise auch Dialoge generieren kann.

We can do dialogue, check it out here: https://t.co/Vg70Wuj1Bo

— Luke Harries (@LukeHarries_) February 18, 2024

Die Videoproduktion wird also grundlegend verändert. Das ist für die Branche, insbesondere für Videoproduzent:innen, beunruhigend und aufregend zugleich.

Elevenlabs launches background audio

Automatically get better audio for your video clips without the need for a sound designer

Future is maaaaad

pic.twitter.com/TAcig9B670

— Linus (●ᴗ●) (@LinusEkenstam) February 18, 2024

Sora bietet noch mehr Möglichkeiten, Meta stellt AI-Video-Learning in den Fokus

Welch großen Einfluss Sora schon jetzt – noch vor dem Launch für die Öffentlichkeit – auf die Branche hat, untermauert auch der mögliche Zusammenhang zwischen einem Kurseinbruch beim Software-Unternehmen Adobe und der Sora-Vorstellung. Der Publisher Investor’s Business Daily und der OMR Podcast Host und OMR X-Geschäftsführer Noah Leidinger sehen in diesen Entwicklungen eine Korrelation. Adobe selbst bietet inzwischen diverse KI-Tools und Features an. Dazu zählt auch das Project Fast Fill, das die KI-Videobearbeitung deutlich vereinfachen und große Veränderungen im Handumdrehen ermöglichen kann.

Was OpenAIs Sora zu bieten hat, erklärt das Unternehmen im Blog Post:

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Neben hochwertigen Videos kann Sora aber auch animierte und statische Grafiken sowie Bilder generieren, wie KI-Experte Andrew Curran auf X zeigt.

Sora also does graphic design. This ability just ended up getting overshadowed by everything else. It really seems to be a general media generator. It’s not just video. Here it is creating some animated monsters. pic.twitter.com/m25t2jJZck

— Andrew Curran (@AndrewCurran_) February 18, 2024

In case anyone missed it during all the excitement, Sora also generates images. This is a still, also from the paper. Sora is not just a video generator. pic.twitter.com/7JjxfTfIN4

— Andrew Curran (@AndrewCurran_) February 18, 2024

Auch Meta arbeitet fleißig an eigenen KI-Video-Tools – und an der Entwicklung einer AGI. Ein neues V-JEPA (Video Joint Embedding Predictive Architecture) genanntes KI-Modell des Konzerns lernt sogar auf Basis von Videos, um das Verständnis der Welt zu erweitern. Metas Chief AI Scientist Yann LeCun sieht in dieser Entwicklung einen Schritt in Richtung AGI. Und: Meta möchte Videos künftig auch Audioelemente hinzufügen, um noch mehr Daten zum Lernen für die KI zu liefern. Die Relevanz der stets umfassenderen Inhalte für die KI-Kreation und das Lernen der KI-Modelle anhand von multimodalen Elementen nimmt rasch zu. So hängt also die Weiterentwicklung von KI-Tools und -Modellen hängt stark mit Bild-, Audio- und Videoinhalten zusammen. Im November erklärte Google, dass der KI-Bot Bard (jetzt Gemini) in der Lage ist, YouTube-Videos zu verstehen und sich über diese mit Usern auszutauschen. Das fördert im KI-System auch das Verständnis für die Kreation.

OpenAI möchte Sora noch weiter optimieren, ehe es umfassend ausgerollt wird. Aktuell sucht das Unternehmen passendes Personal für das entsprechende Team.

Join our Sora team: https://t.co/dfdEQjXyHs

— Greg Brockman (@gdb) February 19, 2024

Derweil entwickeln viele weitere Unternehmen und Tech-Konzerne KI-Lösungen zur Videobearbeitung und -kreation sowie zur Optimierung solcher Clips durch Audiohintergrund. ByteDance hat beispielsweise kürzlich das innovative AI-Video-Tool Boximator vorgestellt.

Spektakuläre Zäsur im AI Game:

OpenAI launcht Text-to-Video-Tool Sora

© OpenAI

February 19, 2024 Blog