Mit Claude Opus 4.7 kommt etwa zwei Monate nach dem 4.6-Update ein Modell, das genau dort ansetzt, wo viele Teams mit KI noch kämpfen – bei der Verlässlichkeit im Alltag. Erste Tests zeigen, dass Tasks stabiler durchlaufen und weniger Nacharbeit erfordern. In internen Evaluierungen auf Basis von SWE-bench Pro und OSWorld erreicht Opus 4.7 beispielsweise 64,3 Prozent bei agentischer Codierung und 78 Prozent bei agentischer Computerarbeit.

Leistungsübersicht von Claude Opus 4.7, © Anthropic

Opus 4.7 ist ab sofort breit verfügbar und läuft auf claude.ai, über die Claude-Plattform sowie in allen großen Cloud-Umgebungen. Für User heißt das, die neue Version lässt sich ohne Umwege in bestehende Workflows einbauen. Gleichzeitig bleibt es nicht bei Anthropics eigenen Umgebungen. Auch bei Perplexity übernimmt Opus 4.7 die Rolle des Standardorchestrierungsmodells für komplexe Computer-Tasks und ist für Max-Abonnent:innen auf Web, iOS und Android verfügbar.

Auf Threads ansehen

Anthropic erweitert Claude Code um Channels für Messenger

© Anthropic via Canva

Die wichtigsten Upgrades von Opus 4.7

Claude Opus 4.6 hat im Februar die Basis gelegt. Mehr Kontext, stabilere agentische Abläufe und erste Ansätze zur Selbstprüfung machten längere Tasks verlässlich umsetzbar. Mit Opus 4.7 knüpft Anthropic genau daran an. Das Modell arbeitet bei langlaufenden Aufgaben konsequenter, setzt Anweisungen exakter um und überprüft eigene Ergebnisse, bevor sie zurückgegeben werden. Anspruchsvolle Tasks lassen sich damit mit weniger Kontrolle übergeben, auch wenn es weiterhin wichtig bleibt, KI-Ergebnisse zu prüfen, um möglichen Fehlern oder Halluzinationen entgegenzuwirken.

Auf Threads ansehen

Der Fortschritt zeigt sich besonders bei visuellen Aufgaben. Opus 4.7 verarbeitet Bilder mit mehr als dreifacher Auflösung und erkennt Details, die zuvor oft verloren gingen. Interfaces, Präsentationen und Dokumente wirken dadurch sauberer ausgearbeitet, weil das Modell feiner auf Layout und Struktur reagiert.

Mit der neuen xhigh-Effort-Stufe ergänzt Anthropic die bisherigen Optionen high und max und schafft eine Zwischenstufe für den Rechenaufwand. Aufgaben lassen sich damit gezielter zwischen Geschwindigkeit und Gründlichkeit austarieren. Ergänzend führen Task Budgets in der Beta einen klaren Rahmen für längere Prozesse ein und helfen, Ressourcen besser zu planen. Der neue /ultrareview-Befehl prüft Änderungen Schritt für Schritt und markiert Schwachstellen ähnlich wie ein Review im Team. Gleichzeitig läuft der erweiterte Automatikmodus länger durch, ohne ständig nach Bestätigung zu fragen. Gerade bei komplexeren Tasks sorgt das für deutlich weniger Unterbrechungen. Zudem wurde der Automatikmodus auf Max User ausgeweitet.

Teurer im Einsatz, strenger im Zugriff

Die Preise bleiben unverändert bei fünf US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token. Gleichzeitig steigt der Bedarf an Tokens pro Aufgabe, weil Opus 4.7 Inhalte detaillierter verarbeitet. Durch den neuen Tokenizer und intensiveres Reasoning können laut Anthropic je nach Use Case bis zu 1,35-mal mehr Tokens anfallen. Einzelne Tasks werden damit potenziell teurer, obwohl sich am Preismodell nichts geändert hat. Umso wichtiger wird es, Prompts und Workflows effizient aufzusetzen.

Mit dem Glasswing-Projekt testet Anthropic, wie sich neue KI-Modelle schrittweise und kontrolliert veröffentlichen lassen. Opus 4.7 dient dabei als erstes Testmodell, an dem neue Sicherheitsmechanismen erprobt werden. Bestimmte Cyber-Fähigkeiten wurden bewusst eingeschränkt, gleichzeitig erkennt das System riskante oder missbräuchliche Anfragen und blockiert sie automatisch. In den Sicherheitsbewertungen, die auf Anthropics eigenen Evaluierungen basieren, gilt das Modell als „weitgehend gut abgestimmt und vertrauenswürdig“, zeigt aber weiterhin Schwächen in sensiblen Bereichen. Positiv fällt die verbesserte Widerstandsfähigkeit gegen Prompt-Injection-Angriffe auf, also Versuche, das Modell absichtlich durch eingeschleuste Vorgaben zu manipulieren, die Sicherheitsregeln umgehen sollen. Für erlaubte Sicherheitsanwendungen wie das Testen eigener Systeme oder das Finden von Schwachstellen setzt Anthropic auf ein Verifizierungsprogramm statt offenen Zugriff.

Blog

Leave a Reply

Your email address will not be published. Required fields are marked *