Stability AI hat kürzlich sein neues KI-Modell, Stable Video Diffusion, vorgestellt. Dieses Modell, das auf dem beliebten Stable Diffusion Text-zu-Bild-Modell basiert, ermöglicht die Generierung von Videos durch die Animation existierender Bilder. Der KI-Experte Javi Lopez teilt die Veröffentlichung auf X und beschreibt die Stable Video Diffusion-Funktionen.
BREAKING NEWS
Stable Diffusion Video!
You heard it right! Stability AI has just released an open source model for text-to-video generation !
How will Runway and Pika respond to this development?
Here’s what you need to know: pic.twitter.com/D3ZW9cwcZg
— Javi Lopez (@javilopen) November 22, 2023
Stable Video Diffusion gibt es in Form von zwei Varianten – SVD und SVD-XT. SVD wandelt Standbilder in 576×1024 Videos mit 14 Bildern um. SVD-XT verwendet dieselbe Architektur, erhöht aber die Anzahl der Bilder auf 24. Beide Varianten können Videos mit einer Geschwindigkeit zwischen drei und 30 Bildern pro Sekunde erzeugen.
In einem Whitepaper erklärt Stability AI, dass die beiden Varianten, SVD und SVD-XT, zunächst auf einem Datensatz mit Millionen von Videos trainiert und dann auf einem viel kleineren Datensatz mit Hunderttausenden bis etwa einer Million Clips feinabgestimmt wurden. Derzeit steht Stable Video Diffusion als Forschungsversion auf Github zur Verfügung, um Erkenntnisse und Sicherheits-Feedback zu sammeln. Die endgültige Version soll, wie Stable Diffusion, frei für kommerzielle Anwendungen nutzbar sein.
Neue Möglichkeiten bei KI-Chatbot Claude
Anthropic, ein KI-Startup, das von ehemaligen OpenAI-Ingenieur:innen gegründet wurde, kündigte kürzlich auf der Plattform X das Claude 2.1 Update für seinen KI-Chatbot an.
Our new model Claude 2.1 offers an industry-leading 200K token context window, a 2x decrease in hallucination rates, system prompts, tool use, and updated pricing.
Claude 2.1 is available over API in our Console, and is powering our https://t.co/uLbS2JNczH chat experience. pic.twitter.com/T1XdQreluH
— Anthropic (@AnthropicAI) November 21, 2023
200.000 Token für die Verarbeitung und keine Halluzinationen mehr
Die Aktualisierung von Claude enthält zentrale Verbesserungen im Kontextfenster, in der Genauigkeit und der Erweiterbarkeit. Im Bereich des Kontextfensters übertrifft Anthropic OpenAI, indem es ein 200.000-Token-Fenster einführt. OpenAI CEO Sam Altman kündigte auf dem diesjährigen Dev Day des Unternehmens ein 128.000-Token-Fenster an. Claude 2.1 kann 200.000 Token verarbeiten und verdoppelt das, was Claude 2.0 zuvor bewältigen konnte.
Das Kontextfenster bezieht sich darauf, wie viele Informationen das Large Language Model (LLM) in seinem Speicher behalten kann, während es Benutzer:innenaufgaben ausführt. Dies wird in Daten-Token gemessen, und je nachdem, wie ein Daten-Token definiert wird, entspricht die Gesamtwortzahl etwa 75 Prozent der Token-Zahl. Somit entsprechen 200.000 Token etwa 150.000 Wörtern.
Auf dem eigenen Blog schreibt das Anthropic:
We encourage you to try uploading long papers, multiple documents, whole books, and other texts you’ve never been able to interact with via any other model.
Die Genauigkeit von Claude soll mit dem Update gesteigert worden sein. So soll Claude 2.1 laut Anthropic weniger falsche Antworten geben, seltener halluzinieren und besser schätzen:
The rate of false statements has decreased by 2x, meaning that when asked a factual question that relies on Claude’s internal knowledge, Claude is 2x less likely to hallucinate an answer.
System Prompts und API-Nutzung
Claude 2.1 bringt auch System Prompts mit sich, die es Nutzer:innen ermöglichen, Claude klare Anweisungen und Kontext vorzugeben. Mit den Prompts können Nutzer:innen beispielsweise Aufgabenanweisungen, Personalisierung oder kreative Einschränkungen angeben. Claude 2.1 kann auch mit benutzer:innendefinierten APIs und Tools interagieren, um einfache Aktionen auszuführen. Diese sollen laut Anthropic beispielsweise die Verwendung einer Taschenrechner-App für komplexere Berechnungen sein, die Beantwortung von Fragen durch die Suche in Datenbanken oder über eine Web-Suche-API.