Text-to-Image, Text-to-Video, Image-to-Video: Die Möglichkeiten, die KI-Tools wie Midjourney und Runways Gen-2 den Usern bei der Content-Kreation bieten, sind zahlreich – dennoch besteht weiterhin Luft nach oben; sowohl bei der Bild- und Videoqualität als auch bei der Funktionalität. Ein neues Tool könnte die KI-Landschaft nun aufmischen. Der sogenannte Boximator, welcher laut eigener Angabe von ByteDance Research entwickelt wurde, ermöglicht die Steuerung der Bewegungen von Objekten in KI-kreierten Videos durch das Zeichnen von Quadraten.
Boximator: TikTok enters the AI game!
Image-to-video by drawing constraints, motion paths and a prompt.
This the most impressive thing I’ve seen in months. We are facing a paradigm shift, and those who fail to see it will be swept away by the tsunami.
LINK + INFO pic.twitter.com/w9X0nCVBvb
— Javi Lopez (@javilopen) February 13, 2024
It is a method to enhance video diffusion models with fine-grained motion control in a flexible and user-friendly way,
beschreibt das Team hinter dem Boximator das Tool auf der Website. Bewegungen werden mit dem Boximator durch das Zeichnen von Quadraten gesteuert. Hierfür wird zunächst ein Mensch, Tier, Fahrzeug oder anderes bewegliches Objekt mit einer Box eingeschlossen. Während eine Box mit einer durchgezogenen Linie die finale Position des Objekts markiert, wird die gestrichelte Box gemeinsam mit Richtungspfeilen zur Angabe von Bewegungen genutzt. Nähere Details zur Anwendung des Tools sowie konkrete Beispiele kannst du dir im folgenden Video anschauen.
Konkurrenz für Runway?
Der KI-Experte Jens Polomski merkt in einem Beitrag auf LinkedIn an, dass das Tool an den Motion Brush von Runway erinnert. Dieser erlaubt es den Nutzer:innen, die von ihnen erstellten KI-Videos präziser zu steuern, indem sie unabhängige Bewegungen verschiedenen Bildbereichen hinzufügen. Damit können sie beispielsweise frei über die Bewegung eines Gesichts oder die Richtung der Wolken am Himmel entscheiden. Zum aktuellen Zeitpunkt ermöglicht das Tool allerdings nur die Angabe der Richtung von Bewegungen und nicht – wie der Boximator – die finale Position.
Momentan ist noch nicht bekannt, wann und wie der Boximator umfassend gelauncht werden soll – eigenen Angaben zufolge soll der Zugriff auf die Demo-Website in zwei bis drei Monaten geöffnet werden. Da das Tool laut der Website von ByteDance Research gefördert wird, ist auch eine Integration bei TikTok denkbar.
Auch Google wartet derzeit mit einigen KI-Updates auf: So kündigte CEO Sundar Pichai kürzlich auf dem Google Blog an, dass das Unternehmen den KI-Chatbot Bard in Gemini umbenannt hat. Das Tech-Unternehmen stellte außerdem die Version Gemini Advanced vor, welche den Zugang zu Googles „größtem und leistungsstärkstem KI-Modell“, Gemini Ultra 1.0, eröffnet.