Mitten hinein in die 12 Days of OpenAI launcht Google eine bahnbrechende KI-Neuheit nach der anderen. Kürzlich hat OpenAI zum Beispiel den heiß ersehnten öffentlichen Zugriff auf das leistungsfähige KI-Video-Tool Sora vorgestellt. Derweil hat Google mit dem Launch des bisher leistungsfähigsten eigenen KI-Modells Gemini 2.0 in der Version Flash die Aufmerksamkeit auf sich gezogen, da dieses Modell diverse Anwendungsbereiche findet und von allen Usern im Web und via Gemini App schon getestet werden kann.
Und während OpenAI stets weiter neue Features vorstellt, buhlt auch Google um die mediale Aufmerksamkeit der Developer, User und nicht zuletzt Unternehmen. So liefert Google jetzt auch Sora und anderen KI-Video-Tools große Konkurrenz. Denn mit Veo 2 ist ein State-of-the-art-KI-Modell zur Videogenerierung auf den Plan getreten, das bald sogar zur Shorts-Kreation und in weiteren Tools verfügbar sein soll. Darüber hinaus hat Google mit Imagen 3 und Whisk innovative KI-Bildkreationsoptionen geliefert, die die Arbeit vieler Kreativer erleichtern sollen.
Gemini 2.0:
So kannst du Googles Mega-KI-Modell testen
Veo 2: Brandneues KI-Modell für täuschend echte Videos
Schon vor etwas über einer Woche rollte Google Veo und Imagen 3 für Vertex AI aus, sodass erste Tester:innen die Video- und Bildkreationsoptionen mit Text-to-Visual-Funktion in hoher Qualität testen und sogar für Business-Kontexte einsetzen konnten. Das erklärte Googles CEO Sundar Pichai via X.
We’re rolling out Veo to Vertex AI in private preview to help businesses generate high-quality video from a text/image prompt, with our Synth ID watermark embedded. Here’s an example of how it generates a short clip based on a text prompt. pic.twitter.com/p5NbDqtVHI
— Sundar Pichai (@sundarpichai) December 3, 2024
Diese beiden generativen Modelle mit AI Support für fotorealistische Visuals in Sekundenschnelle waren bereits bei der I/O im Frühjahr angekündigt worden, allerdings gab es zu der Zeit noch nicht die zweite Version des Veo-Modells. Diese stellt Google jetzt im Blog Post vor. Aäron van den Oord und Elias Roman schreiben:
Veo 2 creates incredibly high-quality videos in a wide range of subjects and styles. In head-to-head comparisons judged by human raters, Veo 2 achieved state-of-the-art results against leading models […].
Ab jetzt verfügbar via ImageFX, VideoFX und das Experiment Whisk in Labs, kann Veo 2 Tools und Modellen wie Sora, Runway Gen-3 Alpha und Dream Machine 1.5 Konkurrenz machen. Dabei können User cinematografische Angaben machen, die das Modell umsetzen kann. Genres, Kameraeffekte, Linseneinstellungen und Co. lassen sich vorgeben und Veo 2 liefert Clips in 4k-Auflösung. Dabei sollen auch Halluzinationen und die Integration unerwünschter Inhalte – etwa ein sechster oder unförmiger Finger an einer menschlichen Hand – minimiert werden.
Ein Beispielvideo von Veo 2, © Google
Erste Reaktionen: Mindblowing, besser als Sora
Auf diese Weise wird der Output realistischer. Von den Ergebnissen zeigen sich viele Creator in der Branche begeistert, so zum Beispiel Marques Brownlee. Dieser hat als Videoproduzent Millionen Follower und sieht in Veo 2 bessere Kreationen als bei Sora.
Google’s new video generation model is called Veo 2, and if these hand-picked examples are real, they look better than anything I’ve gotten out of SORA…https://t.co/mLXe8dG9X3 pic.twitter.com/3qYqW53uvX
— Marques Brownlee (@MKBHD) December 16, 2024
Auch der AI-Experte Pietro Schirano, der schon KI-Teams für Facebook, Uber und Co. geleitet hat, ist von den realitätsnahen Videos überwältigt.
A few more pic.twitter.com/MC89ROuxMl
— Pietro Schirano (@skirano) December 16, 2024
Aktuell bietet der Google DeepMind Research Director und Co-Lead für Veo, Dumitru Erhan, via X an, Prompts von Usern direkt ins Modell einzupflegen, um das Ergebnis zu teilen. Ein Beispiel zeigt er im Thread.
— Dumitru Erhan (@doomie) December 16, 2024
Der Zugriff für das VideoFX Tool, das Veo 2 beinhaltet, wird derzeit ausgeweitet. Über Google Labs können sich Interessierte auf die Warteliste schreiben lassen; in Deutschland ist VideoFX leider noch nicht verfügbar.
Künftig soll Veo 2 aber auch bei YouTube integriert werden, etwa um Shorts zu optimieren. Mit Veo können YouTube Creator schon jetzt beispielsweise Videoelemente wie Hintergründe kreieren. Um Desinformationen im Kontext dieser sehr realitätsnahen Visuals vorzubeugen, integriert Google im Output stets ein unsichtbares SynthID-Wasserzeichen. Nichtsdestoweniger dürfte der Einsatz von Veo 2 und anderen KI-Videogenerierungs-Tools nicht nur zu außergewöhnlich schönen und kreativen Kreationen führen, die für Kunst, Marketing und dergleichen eingesetzt werden, sondern auch zu manipulativen Praktiken.
Imagen 3 erhält Update: Mehr Details, näher am Prompt, noch mehr Styles
Das KI-Bildkreationsmodell Imagen 3 von Google wurde ebenfalls optimiert. Imagen 3 ist schon länger verfügbar, die neueste Version kommt jetzt zu ImageFX in Google Labs. Leider ist auch dieses Tool in Deutschland noch nicht verfügbar. Mit den neuen Fähigkeiten soll Imagen 3 detailreichere Visuals erschaffen und dabei mehr Strukturelemente integrieren, verschiedene Styles aufgreifen können – von Anime bis Impressionismus – und sich schließlich deutlich besser an die Prompts halten.
We’ve also enhanced Imagen 3’s ability to:
Produce diverse art styles: realism, fantasy, portraiture and more
More faithfully turn prompts into accurate images
Generate brighter, more compositionally balanced visuals
→ https://t.co/MmdiHyrugR pic.twitter.com/L1l2Qzs5up
— Google DeepMind (@GoogleDeepMind) December 16, 2024
In Sachen Prompting hat Google indes noch ein weiteres Update in petto. Denn mit dem neuen Experiment namens Whisk können User der Google Labs direkt mit Visuals prompten. Sie haben die Möglichkeit, Bilder hochzuladen oder zu erstellen und auf Basis dieser Remixe zu erstellen oder neue Kreationen hervorzurufen. Dabei werden die Fähigkeiten von Imagen 3 und Geminis Bildverständnisse kombiniert. Gemini extrahiert Captions aus den Bildkreationen, gibt diese an Imagen 3 weiter und das Bildgenerierungsmodell erstellt ein neues Visual. Wie das funktionieren kann, zeigt Google im Video.
Leider ist Whisk zunächst nur in den USA via Google Labs verfügbar.