Claude Opus 4.7: Das neue Flaggschiff, das Anweisungen wörtlich nimmt
Am späten Nachmittag des 16. April veröffentlichte Anthropic Opus 4.7 als allgemein verfügbares Modell. Die Preise bleiben gegenüber Opus 4.6 unverändert bei 5 Dollar pro Million Input-Token und 25 Dollar pro Million Output-Token, das Kontextfenster beträgt eine Million Token, das Modell ist sofort auf Claude.ai, über die API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry und Snowflake Cortex verfügbar.
In den Benchmarks legt Opus 4.7 deutlich zu. Auf SWE-bench Pro, das reale Software-Engineering-Aufgaben testet, erreicht das Modell laut llm-stats 64,3 Prozent — ein Sprung gegenüber 53,4 Prozent bei Opus 4.6, vor GPT-5.4 (57,7 Prozent) und Gemini 3.1 Pro (54,2 Prozent). Auf SWE-bench Verified klettert der Wert von 80,8 auf 87,6 Prozent, Terminal-Bench 2.0 steigt von 65,4 auf 69,4 Prozent. OSWorld-Verified (78 Prozent) und MCP-Atlas (77,3 Prozent) zeigen stärkere Werkzeugnutzung. Die Bildverarbeitung akzeptiert nun Bildkanten bis 2.576 Pixel — das Dreifache des Vorgängers. Anthropic selbst nennt Opus 4.7 „state-of-the-art“ für Coding und Long-Context-Aufgaben.
Der eigentliche Paradigmenwechsel steckt im Namen des Release: „substanziell besser bei der Befolgung von Anweisungen“. Opus 4.6 war bekannt dafür, Prompts proaktiv umzuinterpretieren — wenn etwa ein Entwickler bat, eine Funktion zu löschen, räumte das Modell mit oft auch verwandten Code auf. Opus 4.7 tut das nicht mehr. Anthropic weist explizit darauf hin, dass bestehende Prompts „unerwartete Ergebnisse“ liefern können und überarbeitet werden müssen. In der Community auf Hacker News wird das gemischt aufgenommen: Wörtlichkeit erhöht die Verlässlichkeit für Agenten-Workflows, verringert aber die „magische“ Erfahrung, wenn ein Modell Zusammenhänge eigenständig erkennt.
Opus 4.7 tritt in ein spezielles Verhältnis zu Anthropics Mythos-Preview, dem Cyber-Security-Modell, das wir in unserer Ausgabe vom 8. April vorstellten. Anthropic hat Opus 4.7 bewusst schwächer bei offensiven Cyberaufgaben trainiert („differentially reduce these capabilities“) und zusätzliche Safeguards eingebaut. Die Botschaft: Opus ist das Arbeitspferd für breite Anwendung, Mythos bleibt elitenzugänglich. VentureBeat titelt „narrowly retaking lead for most powerful generally available LLM“ — eine typisch amerikanische Formulierung für: Das Modell ist knapp vorn, aber Anthropic räumt selbst ein, dass Mythos intern stärker ist.
Für Entwickler ändern sich zwei Details, die nicht in den Pressemitteilungen stehen, aber in der Praxis Wirkung entfalten. Erstens nutzt Opus 4.7 einen neuen Tokenizer, der je nach Text bis zu 1,35-mal mehr Tokens erzeugt als der Vorgänger — die effektiven Kosten steigen damit trotz gleichem Pro-Token-Preis. Zweitens ist das „Adaptive Thinking“ standardmäßig aktiv: Das Modell entscheidet selbst, ob es ausführlich denkt oder nicht. Wer die Gedankenspur sehen will, muss display: summarized setzen. GitHub Copilot berechnet Opus 4.7 mit 7,5 Premium-Requests pro Aufruf — ein Aufschlag, der zu kontroversen Diskussionen in der Developer-Community führt.