OpenAI rollt ein neues Bildmodell aus und adressiert damit ein zentrales Problem der Branche. In der LinkedIn-Ankündigung bezeichnet das Unternehmen es als „state-of-the-art image model“. Text in KI-Bildern funktioniert damit ausgesprochen verlässlich.
Während die diversen KI-Tools auf dem Markt bislang häufig eher für Ideation und erste Entwürfe genutzt wurden, wird mit Images 2.0 die Arbeit mit Visual Assets produktionsfähig. Die Visuals entstehen nicht mehr nur als Entwurf, sondern lassen sich direkt in Kampagnen, Ads oder Content-Formaten einsetzen. Der Zugang startet für ChatGPT und Codex User. Die erweiterten Images mit Thinking-Funktionen stehen zunächst Plus-, Pro- und Business-Nutzer:innen zur Verfügung. Entwickler:innen können über die gpt-image-2-API auf das Modell zugreifen.
15 ChatGPT Prompts, um 15 Stunden pro Woche zu sparen
Erste Praxistest zeigen, warum Images 2.0 ein Durchbruch ist
In der Praxis scheiterten KI-Visuals lange ausgerechnet an Schrift und Beschriftungen. Inhalte waren ungenau, Labels uneinheitlich und viele Ergebnisse nicht einsetzbar. Das liegt an Diffusionsmodellen, die Bildstrukturen höher gewichten als Text. Images 2.0 löst diese Probleme jetzt. Details wie Schrift, Icons oder UI-Elemente werden deutlich präziser dargestellt. Gleichzeitig folgt das Modell komplexen Anweisungen zuverlässiger, platziert Elemente konsistenter und kann Inhalte über verschiedene Formate hinweg generieren. Auch unterschiedliche Seitenverhältnisse werden besser unterstützt, was die Erstellung von Assets für Social, Präsentationen oder Kampagnen erleichtert.
Welche Anwendungen möglich sind, zeigen konkrete Use Cases von OpenAI anhand von Beispiel-Prompts. So lassen sich etwa Social Ads in mehreren Formaten aus nur einer Eingabe generieren – inklusive unterschiedlicher Seitenverhältnisse für verschiedene Plattformen:
Make an advertisement promoting my new matcha shop called ‚kizuna‘ opening in brooklyn heights. have a nice sunlight image of a strawberry matcha (iced) and a streetwear aesthetic w japanese minimalism. make sure to include multiple aspect ratio outputs so i can use it on twitter, IG stories, IG feed, and linkedin.
Auch designgetriebene Assets mit komplexer Struktur sind möglich, etwa mehrseitige Layouts im Stil professioneller Print-Produkte:
Can you give me a four-page recipe with images on how to make a key lime pie? make it look like a professional cookbook.
Speisekarten, Infografiken, Assets: Das kann Images 2.0
Erste User-Tests zeigen, wie groß der Fortschritt ist. Eine mit Images 2.0 generierte Speisekarte ist heute so stimmig, dass sie ohne Anpassung eingesetzt werden kann. Eine manuelle Kontrolle bleibt dennoch sinnvoll. Vor zwei Jahren war das noch ausgeschlossen. Auch komplexere Formate wie Infografiken, Karten oder mehrteilige Visuals lassen sich in kurzer Zeit erstellen, wie beispielsweise Tech-Investor und -Analyst sowie Host des Tech Talk Podcasts Doppelgänger Philipp Klöckner auf LinkedIn demonstriert. TechCrunch illustriert den Fortschritt mit einem direkten Vergleich zwischen dem neuen und einem älteren OpenAI-Modell. Der Publisher zeigt eine von ChatGPT Images 2.0 generierte Demo-Speisekarte und stellt ihr ein älteres Pendant von OpenAIs DALL-E 3 gegenüber. Während die neue Version durch konsistente Beschriftung und saubere Texte überzeugt, zeigt das ältere Beispiel typische Schwächen. Dazu zählen fehlerhafte Begriffe und uneinheitliche Labels.
Mit ChatGPT Images 2.0 generierte Demo-Speisekarte, © OpenAI via TechCrunch
Früheres Beispiel aus DALL-E 3 mit typischen Fehlern bei Text und Beschriftungen, erstellt über Microsoft Designer, © DALL-E 3 via TechCrunch
Auf Basis eines aktuellen OnlineMarketing.de-Artikels zur ChatGPT-Nutzung – konkret zur Entwicklung des Gender Gap von über 80 Prozent männlich gelesenen Usern Anfang 2023 hin zu einer inzwischen ausgeglichenen Nutzung mit leichtem Überhang weiblich gelesener Nutzer:innen – haben wir selbst ein Visual mit Images 2.0 generiert. Das Ergebnis ist eine präzise strukturierte Infografik mit sauberer Hierarchie, konsistenter Beschriftung und korrekt dargestellten Zahlen. Damit gelingt es dem Modell nicht nur, Inhalte visuell abzubilden, sondern sie auch verständlich aufzubereiten.
Zur technischen Funktionsweise hält sich OpenAI allerdings bedeckt und gibt keine Einblicke in die Architektur. OpenAIs Adele Li erklärt auf LinkedIn immerhin, dass das Modell über Reasoning-Fähigkeiten verfügt, mehrere Bildvarianten erzeugt und Outputs eigenständig überprüft.
Die KI-Bildgenerierung entwickelt sich damit in Richtung LLM Workflows mit Planning- und Self-Check-Schritten. Das steigert die Qualität der Visuals und Assets, gleichzeitig wächst mit der Komplexität auch der Bedarf an Kontrolle – nicht zuletzt wegen anhaltender Blackbox-Risiken.
Welches Image Generation Model definiert den neuen Standard?
Der Start von Nano Banana 2025 sorgte für viel Zulauf bei Google und Gemini. Google musste wegen der hohen Nachfrage sogar die freien Nutzungslimits zeitweise begrenzen. Im Februar 2026 folgte mit Nano Banana 2 ein Update des Modells, das vor allem durch hohe Geschwindigkeit, erweitertes Weltwissen aus Gemini sowie die Integration in Search- und Ads-Kontexte überzeugte. Mit Images 2.0 könnte der Hype um Nano Banana jedoch nachlassen. Denn die Frage nach dem künftigen Image Generation Model-Standard ist bislang noch unbeantwortet.
Im Rennen um das KI-Visual-Tool Nummer eins profitiert OpenAI auch von der enormen Reichweite. ChatGPT kommt inzwischen auf über 900 Millionen wöchentlich aktive Nutzer:innen, eine starke Ausgangsbasis für Images 2.0. Dass neue Modell-Releases zu spürbaren Verschiebungen führen können, zeigt sich immer wieder. Branchenbeobachter:innen wie Tech-Analyst Philipp Klöckner weisen darauf hin, dass frühere Launches bereits Millionen Nutzer:innen zwischen Plattformen bewegt haben. Eine Dynamik, die sich auch mit Images 2.0 erneut abzeichnen könnte.
