Nach dem Start von GPT-5.5 als neues KI-Modell mit optimierter Intelligenzklasse bietet OpenAI den Usern immer mehr neue Einsatzmöglichkeiten für die eigenen KI-Dienste an. Gerade für die Coding-Funktionen von Codex gibt es stetig neue Updates. Schon mehr als vier Millionen User setzen pro Woche auf Codex – viele davon in Deutschland, wie Head of ChatGPT Nick Turley jüngst beim OMR Festival nochmals betonte. Laut Turley ist OpenAIs großes Ziel, allen eine „eigene, persönliche KI zur Verfügung“ zu stellen. Da können beispielsweise Codex und die API als Umgebung zur Kreation von Agents und eigenen Apps oder Seiten bereits helfen. Für Codex führt OpenAI jetzt eine hilfreiche Chrome-Erweiterung ein, für die API neue Voice-Modelle, die die sprachlichen Fähigkeiten von Apps und Agents umfassend verbessern können.

Jetzt kommt „Codex for (almost) everything“

© OpenAI via Canva

Codex direkt in Chrome einsetzen, via macOS und Windows

Der offizielle OpenAI Account verkündete auf X, dass User Codex neuerdings direkt im Chrome Browser einsetzen können. Dafür braucht es eine Chrome-Erweiterung. Diese ermächtigt die User dann beispielsweise dazu, in verschiedenen Tabs im Hintergrund Aufgaben vom Coding Agent übernehmen zu lassen. Auf diese Weise kannst du repetitive oder zeitraubende Aufgaben einfach an die KI delegieren und beim Browsing ausführen lassen. Dabei werden Plugins genutzt, wenn diese die Aufgabe übernehmen können, oder Chrome Websites mit Login, falls nötig. Auch die Kombination dieser Ansätze kommt vor.

With the new Chrome extension, Codex can quickly move through repetitive browser work, like navigating structured pages and complex data entry flows.

Under the hood, it writes and runs code to navigate and complete tasks. pic.twitter.com/6bfDlnK2U3

— OpenAI (@OpenAI) May 7, 2026

Ob das Updating von CRM-Systemen, die Recherche im Web oder die Prüfung von Dashboards, Codex für Chrome kann Abhilfe schaffen. Die Erweiterung ist schon in der Codex App verfügbar, allerdings noch nicht im UK und in der EU. Der Support soll dort aber schnell folgen.

Mehr Voice Intelligence in der API: Auch ChatGPT soll bald Voice Updates erhalten

Für die API hat OpenAI mit GPT-Realtime-2 das bisher fähigste eigene Voice-Modell vorgestellt. Damit kommen Reasoning-Fähigkeiten der GPT-5-Modellreihe zu Voice Agents und anderen Kreationen, die Developer über die API erstellen. Zusammen mit den weiteren neuen Modellen GPT-Realtime-Translate und GPT-Realtime-Whisper sollen AI Agents damit zu Echtzeit-Voice-Kooperationspartner:innen werden, die zuhören, nachdenken und komplexe Probleme lösen können. Während das Modell GPT-Realtime-2 zur Kreation von Voice Agents befähigt, die besser denken und auch auf Unterbrechungen eingehen können, liefert GPT-Realtime-Translate Support für über 70 Input- und 13-Output-Sprachen. GPT-Realtime-Whisper wiederum kann beispielsweise Audiotexte unmittelbar transkribieren, um etwa Untertitel oder Audio-Notes zu markieren.

Our new voice models are now available in the Realtime API:

GPT-Realtime-2: Build production-ready voice agents that can think harder, take action, handle interruptions, and keep conversations flowing.

GPT-Realtime-Translate: Translate while streaming across more than 70…

— OpenAI (@OpenAI) May 7, 2026

Der Einsatz von Sprache wird laut OpenAI immer natürlicher, um mit Software zu interagieren. Daher können Developer darauf setzen, um Agents für ihre Zwecke einzuspannen. OpenAI erklärt:

[…] It lets someone ask for help while driving, change a travel plan while walking through an airport, get support in their preferred language, or move through a task without stopping to type. But building useful voice products takes more than fast turn-taking or a natural-sounding voice. A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment.

Developer kreieren vor allem in drei Kategorien:

Voice-to-action: Personen können eine Aufgabe beschreiben und von der KI ausführen lassen. Eine App könnte auf Anfrage per Prompt etwa eine optimierte Reiseroute nach spezifischen Mustern heraussuchen.

Systems-to-voice: Software könnte Inhalte in Audioinformationen umwandeln. Eine App könnte etwa aktuelle Updates auf einer Reiseroute aktiv an die User weitergeben und sprachlich auf Handlungsempfehlungen hinweisen.

Voice-to-voice: Das klassische Modell zur Sprachinteraktion mit Agents, idealerweise in Echtzeit und in bevorzugten Sprachen. Eine App könnte für Interaktionen von Stimme zu Stimme sorgen, die etwaige Probleme direkt lösen.

Auch die Kombination dieser Optionen ist vorstellbar. Die Modelle, die bei der Entwicklung helfen, können sowohl großen Unternehmen wie der Deutschen Telekom beim Agent-Aufbau helfen als auch Creatorn, Publishern und KMU. Die Einsatzszenarien sind vielfältig.

Aktuell sind die neuen OpenAI-Sprachmodelle in der Playground-Umgebung verfügbar. Die Kosten für die Nutzung betragen derzeit für GPT‑Realtime‑2 32 US-Dollar für eine Million Audio-Input-Tokens (0,40 US Cent für Cached Input Tokens) und 64 US-Dollar für eine Million Audio-Output-Tokens. GPT‑Realtime‑Translate kostet 0,034 US Cent pro Minute, GPT‑Realtime‑Whisper 0,017 US Cent pro Minute. Während OpenAI die API mit den neuen Sprachmodellen versorgt, ist ein Update für ChatGPT, das von diesen Modellen ebenfalls profitieren soll, bereits in Arbeit.

We know you’re eager for voice updates in ChatGPT. Stay tuned, we’re cooking.

— OpenAI (@OpenAI) May 7, 2026

GPT-5.5 ist OpenAIs schlauestes Modell:
Arbeit von Monaten in Minuten

© Bartosz Naskręcki, OpenAI via Canva

Stelle OnlineMarketing.de als bevorzugte Quelle auf Google ein

Wenn du OnlineMarketing.de auf Google als bevorzugte Quelle einstellen möchtest, um auch in den Schlagzeilen auf Google immer aktuelle News und Tipps aus der Welt des Marketing und der Tech-Entwicklungen zu finden, kannst du einfach die Google-Quelleneinstellungen aufrufen und die Seite anwählen. Über das Stern-Icon neben den Top Stories kannst du ebenfalls bevorzugte Quellen für die spätere Suche speichern.

Blog

Leave a Reply

Your email address will not be published. Required fields are marked *