· 6 Artikel + Reportage + Tool-Radar + Werkstatt

Ausgabe vom 29. April 2026

Maschinell recherchiert, menschlich relevant.

Wirtschaft · KI-Aktien

OpenAI verfehlt Umsatzziele — und reißt Oracle, CoreWeave und SoftBank mit

Hintergrund & Analyse

Die WSJ-Story von Berber Jin und Tom Dotan ist die erste seriöse Stresstest-Episode der KI-Bubble. Drei zentrale Fakten: ChatGPTs Wachstum hat sich Ende 2025 verlangsamt; das interne Ein-Milliarden-WAU-Ziel zum Jahreswechsel wurde laut The Information-Vorabbericht bei rund 700 Millionen verfehlt; mehrere monatliche Umsatzziele Anfang 2026 wurden ebenfalls nicht erreicht. Der wichtigste Treiber des Slowdowns: Anthropic hat im Coding- und Enterprise-Segment substantielle Marktanteile geholt — Claude Code allein wächst nach Sacra-Daten von 1 Mrd. ARR Ende 2024 auf 19 bis 30 Milliarden Dollar (je nach Brutto-/Nettomethodik) im April 2026, OpenAI selbst liegt bei 24 bis 25 Milliarden ARR.

Die heikelste Passage der WSJ-Recherche betrifft CFO Sarah Friar: Sie soll intern gewarnt haben, OpenAI könnte „möglicherweise nicht in der Lage sein, künftige Computing-Verträge zu finanzieren“, wenn das Umsatzwachstum nicht beschleunigt. Bei einer aktuellen Bewertung von 852 Milliarden Dollar (122-Mrd.-Funding-Round im März, IPO-Filing für Q4 2026 in Vorbereitung) wäre eine Cashflow-Krise innerhalb der Compute-Verträge ein systemisches Ereignis: Allein das Stargate-Projekt mit Oracle in Abilene/Texas hat ein Volumen von 300 Milliarden Dollar, dazu kommen 50 Milliarden bei AWS (siehe Artikel 3) und der bisherige Azure-Deal von rund 250 Milliarden Dollar. Insgesamt hat OpenAI nach Bloomberg-Recherchen rund 600 Milliarden Dollar an künftigen Compute-Verpflichtungen unterzeichnet — mehr als das 24-fache seines aktuellen ARR.

Die Marktreaktion am Dienstag war differenzierter, als die Schlagzeilen suggerieren. SoftBank — größter Single-Investor in OpenAI über die Vision-Funds — verlor in Tokio rund zehn Prozent. CoreWeave (größter Hyperscaler-Mieter von OpenAI-Kapazität) gab 5,4 Prozent ab, Oracle (Stargate-Partner) bis zu sieben Prozent, AMD (250.000-MI400-GPU-Deal vom Oktober 2025) rund vier Prozent, Broadcom ebenfalls vier Prozent. Nvidia selbst gab nur ein Prozent nach — laut CNBC die schwächste Mag-7-Aktie des Tages, aber bei weitem nicht der erwartete Crash. Microsoft drehte im Tagesverlauf ins Plus: Die am Vortag verkündete Lockerung der OpenAI-Cloud-Exklusivität bringt Redmond strukturell den größten Vorteil, weil Azure nicht mehr alleine die Compute-Last (und damit das Compute-Risiko) trägt.

Sam Altman und Sarah Friar veröffentlichten am späten Dienstagabend ein gemeinsames Statement: „This is ridiculous. We are totally aligned on buying as much compute as we can and working hard on it together every day.“ Die offizielle OpenAI-Position fasste Bloomberg in der Headline zusammen: „firing on all cylinders“. Drei Aspekte fehlen in der Verteidigung. Erstens: Keine konkrete Zahlennennung — weder zur tatsächlichen WAU noch zum aktuellen Monatsumsatz. Zweitens: Keine Stellungnahme zur intern dokumentierten Friar-Sorge. Drittens: Keine Aussagen zu möglichen Anpassungen der Compute-Verpflichtungen — die nach Fortune-Recherchen mittelfristig vor Anwälten landen könnten, wenn Performance-Klauseln gerissen werden.

Die Analysten spalten sich. Mizuho-Analyst Jordan Klein hält die Sorge für überzogen — niemand, der gerade Equity bei 852 Mrd. gezeichnet habe, werde wegen einer WSJ-Story aussteigen. John Belton von Gabelli Funds nannte den Bericht „nichts wirklich Neues“. Luke Rahbari von Equity Armor verwies darauf, dass KI-Branchenprognosen historisch 25 bis 50 Prozent Fehlermarge haben — Bewegungen wie diese seien gesund. Auf der anderen Seite: Jim Cramer (CNBC) sieht den Pullback als Beweis, dass die jüngste Rally „overheated“ war. Bridgewater-CIO Bob Prince hatte bereits letzte Woche gewarnt, dass ein Vertrauensverlust bei Nvidia 6 bis 8 Prozent S&P-500-Risiko bedeuten würde — Nvidia macht aktuell rund 8 Prozent des Index aus.

Für SaaS- und Tech-Entscheider ist der Tag aus drei Gründen relevant. Erstens: Vendor-Diversifikation ist nicht mehr nice-to-have. Wer einseitig auf OpenAI-APIs aufbaut, hat ein dokumentiertes Cashflow-Risiko des Anbieters in den Modell-Entscheidungen zu verarbeiten — Multi-Cloud-Architekturen mit Anthropic-Backup, Open-Source-Fallback (DeepSeek V4, Llama 4, Qwen 3) oder hybridem Routing werden Pflicht. Zweitens: Pricing-Stabilität ist fragil. Wenn OpenAI Compute-Verpflichtungen aktivieren muss, wird der Druck auf API-Margen wachsen — heute scheinbar attraktive Preise könnten 2027 anders aussehen. Drittens: SaaS-Bewertungen mit hohen ARR-Multiples (Cursor 20 Mrd. bei 1 Mrd. ARR; Perplexity 20 Mrd. bei 148 Mio. ARR; Glean 7,2 Mrd. bei 200 Mio. ARR) hängen mittelbar an OpenAIs Trajektorie. Wir analysieren die Implikationen ausführlich in unserer heutigen Reportage.

Justiz · Musk vs. Altman

„Star Trek statt Terminator“: Musk im Zeugenstand — Larry Page-Anekdote, 134 Mrd. Forderung und der Zilis-E-Mail-Konter

Hintergrund & Analyse

Musks Auftritt war eine Mischung aus Pop-Kultur-Pitch, Gründungsmythos und juristisch kalkulierten Aussagen. Auf die Frage, warum OpenAI gegründet wurde, lieferte er den Geschworenen die Star-Trek-vs.-Terminator-Metapher und die Risiko-Einschätzung: „It could make us more prosperous, but it could also kill us all.“ Er erwarte, dass KI „bereits im nächsten Jahr smarter als jeder Mensch“ sei. Diese Einlassungen dienten — laut Fortune-Analyse — primär dazu, Musk als visionären Treuhänder einer Charity-Mission zu positionieren, nicht als rationalen Investor mit kommerziellen Interessen.

Die zentrale Founding-Anekdote war die wirksamste Erzählung des Tages: „The reason OpenAI exists is because Larry Page called me a 'speciesist'.“ Bei einer Diskussion 2015 habe Page ihn so bezeichnet, weil er Menschen über digitale Lebensformen stelle. OpenAI sei daraufhin — wörtlich — „als open-source nonprofit, das Gegenteil von Google“ konzipiert worden. Fortune, CNBC und Calcalist dokumentierten den Satz wortgleich. Musks Anwalt Steven Molo nutzte die Anekdote als Hebel: Wenn Page mit dem „Speziesisten“-Vorwurf der Auslöser war, konnte OpenAI nie als gewöhnliche For-Profit-Company gemeint sein.

Auf die Eigentumsfrage antwortete Musk unter Eid: „I came up with the idea, the name, recruited the key people, taught them everything I know, provided all the initial funding.“ Sein dokumentierter eigener finanzieller Beitrag: rund 38 Millionen Dollar — etwa ein Vierhundertstel der Forderung. Zur Charity-Frage formulierte er pathetisch: „If we make it okay to loot a charity, the entire foundation of charitable giving in America will be destroyed.“ Konkret fordert er bis zu 134 Milliarden Dollar (manche Filings nennen 150 Milliarden inklusive Microsoft-Lizenzwert) — komplett an OpenAIs gemeinnützige Stiftung, plus Absetzung von Sam Altman und Greg Brockman, plus Rückführung in den reinen Non-Profit-Status. Musk verzichtete unter Eid auf jeden persönlichen Schadenersatzanspruch.

OpenAIs Counter-Anwalt William Savitt von Wachtell, Lipton, Rosen & Katz präsentierte als Schlüsselbeweis eine E-Mail des damaligen OpenAI-Boardmitglieds Shivon Zilis (Mutter mehrerer Musk-Kinder) an Musk-Vertrauten Sam Teller. Zilis skizzierte zwei Restrukturierungsoptionen: „Roll everything into a B corp“ und „OpenAI C Corp and OpenAI non-profit“. Savitts juristisches Fazit: „He supported a for-profit, so long as he was in control.“ Damit untergräbt OpenAI Musks „Verrat“-Narrativ — er habe das For-Profit-Modell selbst befürwortet, solange er die Kontrolle behielt. Die Klage als „pageant of hypocrisy“, motiviert durch Rache nach Musks 2018er-Übernahmeangebot, das vom Board abgelehnt wurde.

Musks Auftritt im Saal wurde von Beobachtern unterschiedlich bewertet. The Verge titelte „Elon Musk appeared more petty than prepared“: Musk habe gegen Ende der Aussage müde gewirkt, mehrfach Wasser getrunken, sich durchs Haar gefahren. Schon vor Sitzungsbeginn hatte Richterin Yvonne Gonzalez Rogers ihn wegen seiner X-Tweets („Scam Altman“) gerügt und mit einer Gag-Order gedroht. Molo nutzte in seinem Eröffnungsplädoyer die Bildmetapher: ein Museum dürfe einen Gift Shop haben, „but the museum store can't loot the museum and sell the Picassos.“ Am Mittwoch (heute) kehrt Musk für das Cross-Examination durch Savitt zurück. Die Zeugenliste der nächsten Tage: Greg Brockman (2,5 Stunden), Microsoft-CEO Satya Nadella (1 Stunde), Ex-OpenAI-Chefwissenschaftler Ilya Sutskever (30 Minuten), Mira Murati, Shivon Zilis (3 Stunden) und Sam Altman selbst. Die Liability-Phase läuft bis Mitte Mai.

Cloud · Multi-Cloud-Pivot

OpenAI auf AWS: Bedrock mit GPT-5.4, Codex und Managed Agents — 24 Stunden nach dem Microsoft-Bruch

Hintergrund & Analyse

Drei Produkte gleichzeitig in Limited Preview: Erstens — OpenAIs Frontier-Modelle auf Amazon Bedrock, integriert via bestehende Bedrock-APIs neben Anthropic, Meta und Mistral. GPT-5.4 ab sofort, GPT-5.5 in den nächsten Wochen. Vollständige Enterprise-Controls (IAM, PrivateLink, Guardrails, Encryption, CloudTrail). Wichtigster kommerzieller Hebel: Die Nutzung zählt auf bestehende AWS-Cloud-Commitments an, statt einen separaten Vertrag zu erfordern. Zweitens — Codex auf Bedrock, OpenAIs Coding-Agent (laut OpenAI 4 Millionen Weekly Users) verfügbar via Codex CLI, Desktop-App und VS-Code-Extension innerhalb der AWS-Umgebung. Drittens — und strategisch am bedeutsamsten — „Bedrock Managed Agents, powered by OpenAI“: ein gemeinsam entwickelter Service, in dem Agenten eine eigene Identität mit Action-Logging haben, in der Customer-Umgebung laufen und mit Bedrock AgentCore integrieren.

Die Schnelligkeit der Auslieferung — 24 Stunden nach Aufhebung der Exklusivität — verrät, dass an dem Setup seit Wochen oder Monaten parallel gearbeitet wurde. Matt Garman bestätigte das im Stratechery-Interview mit Ben Thompson: Swami Sivasubramanian, AWS-VP für Agentic AI, habe „mit einem Team aus sechs Principal Scientists in nur drei Monaten“ einen Demo-Personal-Desktop-Assistant gebaut — möglich nur, wenn OpenAI-Modelle bereits internen Zugriff hatten. Garmans Statement zum Launch: „This is what our customers have been asking us for for a really long time. Their production applications run in AWS. Their data is in AWS. They trust the security of AWS, and we've forced them for the last couple of years, to get great OpenAI models, to go to other places.“ Andy Jassy bezeichnete in der parallel laufenden Earnings-Vorbereitung die Aufweichung der MS-Exklusivität als „very interesting announcement“.

Die wirtschaftliche Mechanik ist subtil. Der 50-Mrd.-Compute-Deal hat zwei Komponenten: 15 Milliarden Initial-Investment plus 35 Milliarden an performance-gebundenen Verpflichtungen. AWS wird im Gegenzug exklusiver Third-Party-Distributor für OpenAIs Enterprise-Agent-Plattform „Frontier“. OpenAI verpflichtet sich zu 2 Gigawatt Trainium-Capacity — Amazon hatte sein Anthropic-Investment parallel auf bis zu 25 Mrd. mit ~100-Mrd.-Cloud-Commitment aufgestockt. Damit besitzt AWS nun strukturell die zwei kommerziell wichtigsten Frontier-Familien (OpenAI + Anthropic) — eine Position, die Microsoft trotz seines OpenAI-Vorsprungs nie hatte.

Was passiert mit Anthropic? Offiziell keine Reaktion. The Information-Quellen sehen aber einen klaren Anthropic-Subtext: Claude Cowork bleibt auf Bedrock, Anthropic trainiert weiter auf Trainium und Graviton. AWS positioniert sich als „neutraler Marktplatz“ — bewusst gegen Microsofts implizite OpenAI-Bevorzugung und gegen Googles Vertex-Vertikalisierung um Gemini. Die strategische Wette: Enterprise-CIOs wollen Multi-Modell-Optionen unter einem Vertrag, einer Compliance-Architektur, einem Billing-Stack. AWS positioniert Bedrock als diesen neutralen Layer.

Drei praktische Konsequenzen für SaaS- und Tech-Entscheider. Erstens: Wer aktuell Azure-OpenAI nutzt, sollte Bedrock-Pricing und Latenz-Profile in den nächsten zwei Wochen evaluieren — die exakten Token-Preise sind noch nicht öffentlich, aber Konsumtion auf bestehende AWS-Commitments schafft Verhandlungsmacht. Zweitens: Bedrock Managed Agents sind ein direkter Konkurrent zu Anthropics Managed Agents (April 2026) und Microsofts Copilot Studio — wer Agent-Architekturen plant, hat jetzt drei kommerzielle Optionen plus mehrere Open-Source-Frameworks. Drittens: Codex auf Bedrock heißt, dass die Coding-Agent-Wars in die Cloud-Layer wandern — Cursor, Lovable und Replit haben damit nicht mehr nur Claude Code als Konkurrenten, sondern integrierte Cloud-Agent-Plattformen.

Geopolitik · Pentagon-AI

Google springt für Anthropic ein: Pentagon erhält klassifizierten KI-Zugang — 950 Mitarbeiter protestieren

Hintergrund & Analyse

Die Geschichte ist eine Verkettung aus drei Akten. Akt eins: Anfang März 2026 weigerte sich Anthropic-CEO Dario Amodei, Claude für zwei Pentagon-Anwendungen freizugeben — „domestic mass surveillance of Americans“ und „fully autonomous weapons with no humans assisting in targeting or firing decisions“. Beide Beschränkungen sind Teil von Anthropics Acceptable Use Policy. Akt zwei: Am 5. März brandmarkte das DoD Anthropic offiziell als „supply-chain risk“ — eine Bezeichnung, die sonst ausländischen Gegnern vorbehalten ist. Akt drei: Am 26. März erwirkte Anthropic eine einstweilige Verfügung gegen die Designation. Pikant: Das Pentagon nutzt Claude weiter über Palantirs Maven Smart System in der Iran-Operation; die NSA setzt laut TechCrunch-Bericht vom 20. April Anthropics Mythos-Modell ein.

Die jetzt von Julie Bort (TechCrunch, basierend auf Wall Street Journal) gebrochene Story ist Akt vier: Google hat dem DoD Zugang zu seinen KI-Modellen „for classified networks“ gewährt — laut TechCrunch „essentially allowing all lawful uses“. Vertragslaufzeit, Volumen und konkrete Modell-Namen (vermutlich Gemini auf Vertex AI for Government) wurden nicht genannt; Google wollte nicht kommentieren. Eine kosmetische Schutzklausel hat es wohl in den Vertragstext geschafft: Die KI sei „nicht intendiert“ für „domestic mass surveillance or autonomous weapons“ — exakt die gleichen Schwellen, die Anthropic durchsetzte. TechCrunch merkt jedoch an: „It is unclear whether such provisions are legally binding or enforceable.“ Das ist deutlich schwächer als Anthropics harte AUP-Limits.

Mitarbeiter-Reaktion bei Google: 950 Unterzeichner auf notdivided.org, die Google auffordern, Anthropics Beispiel zu folgen — keine KI ohne vergleichbare Guardrails an das DoD zu verkaufen. Der offene Brief verweist explizit auf Anthropics „supply-chain risk“-Designation als politisches Druckmittel und auf das Risiko, dass Schutzklauseln im Vertragstext unverbindlich sind. Google ist nach OpenAI (Pentagon-Vertrag von Anfang März) und xAI (Vertrag vom 16. März; Senatorin Elizabeth Warren stellte kritische Anfragen) der dritte Anbieter, der die von Anthropic vakante Position übernimmt. Wired dokumentierte parallel, dass OpenAI-Präsident Greg Brockman 25 Mio. USD an die MAGA Inc. Super PAC spendete — ein politischer Kontrast zu Amodei, der dem DoD nach The Information-Recherchen unterstellte, das „supply-chain risk“-Brandmarken sei „retaliatory and punitive“ als Reaktion auf seine Weigerung, Trump zu loben oder zu spenden.

Strukturell entsteht ein scharfes Asymmetrie-Bild der KI-Sicherheits-Politik: Anthropic — der einzige Frontier-Anbieter mit Classified-Ready-Systemen — verzichtet auf einen wachsenden Defense-Markt aus Acceptable-Use-Gründen und nimmt dafür juristische Isolation und politische Stigmatisierung in Kauf. OpenAI, Google und xAI bedienen den Markt mit weicheren Klauseln — und erhalten Zugang zu klassifizierten Netzwerken. Dean Ball, ehemaliger Trump-AI-Berater, nannte die Anthropic-Designation in einer Podcast-Diskussion „death rattle of the American republic“. Die kommerzielle Bilanz für Anthropic dürfte dennoch positiv sein: Trotz oder wegen der Position wuchs der ARR von 9 Mrd. (Ende 2025) auf 19 bis 30 Mrd. (April 2026) — Enterprise-Kunden honorieren die klare AUP als Compliance-Asset.

Für Tech-Entscheider in regulierten Branchen — Finanzen, Gesundheit, kritische Infrastruktur — wird Anthropics Hardline-Politik strukturell zum Differentiator. Wer Compliance-Anforderungen aus EU AI Act Art. 50 (ab August 2026), DORA oder NIS2 abbilden muss, hat mit klar dokumentierten AUP-Grenzen einen sauberen Audit-Pfad. Die offene Frage: Wann werden europäische Datenschutz-Behörden den Bogen schlagen und Google-Vertex-AI-Nutzung für sensible Anwendungen mit Verweis auf den Pentagon-Vertrag kritisch prüfen? Erste Andeutungen kamen am Dienstag aus Frankreich (CNIL) und Bayern (BayLDA).

Modelle · NVIDIA Open Source

NVIDIA Nemotron 3 Nano Omni: 30B-Hybrid-MoE für Multimodal-Agenten — bei 9-facher Throughput-Rate

Hintergrund & Analyse

Die wichtigste technische Innovation steckt im Architektur-Mix. Nemotron 3 Nano Omni kombiniert 23 Mamba-Layer (State-Space-Modelle für effiziente Long-Context-Verarbeitung), 23 MoE-Layer (128 Experten, Top-6-Routing) und 6 Grouped-Query-Attention-Layer in einem 30B-Backbone — die „30B-A3B“-Notation bezieht sich auf 30 Milliarden Gesamtparameter mit drei Milliarden aktiv pro Forward-Pass. Vision-Encoder ist NVIDIAs C-RADIOv4-H, Audio-Encoder das Parakeet-TDT-0.6B-v2. Damit verarbeitet Nemotron 3 Nano Omni Text, Bild, Audio und Video in einer geteilten multimodalen Token-Sequenz — ohne separate Perception-Modelle vor- oder nachschalten zu müssen. Bilder werden dynamisch von 1.024 bis 13.312 Patches skaliert (entspricht 512×512 bis 1840×1840 Pixel).

Die Long-Context-Spezifikation ist außergewöhnlich: 256K Kontextfenster, Verarbeitung von 5+ Stunden multimodalem Input, Audio-Training bis 1.200 Sekunden (20 Minuten), Dokumente mit 100+ Seiten inklusive Cross-Page-References, Tabellen und Formeln. Konkretes Anwendungsbeispiel aus dem NVIDIA-Blog: ein Adobe-Finanzreport mit 138 Seiten wird in einem einzigen Pass analysiert — inklusive korrekter Querverweise zwischen Bilanz und Cashflow-Statement.

Die Performance-Zahlen sind aggressiv. NVIDIA selbst formuliert: „delivers up to 9x higher throughput and 2.9x the single-stream reasoning speed on multimodal use-cases“. In der Praxis: 7,4-fache System-Effizienz bei Multi-Dokument-Cases, 9,2-fache bei Video-Cases gegenüber anderen offenen Omni-Modellen. Die direkten Benchmark-Vergleiche gegen Qwen3-Omni 30B-A3B (ebenfalls von Alibaba im März 2026 veröffentlicht): OCRBenchV2-En 65,8 vs. 61,2; MMLongBench-Doc 57,5 vs. 38,0; OSWorld GUI-Agent 47,4 vs. 11,0; Video-MME 72,2 vs. 70,5; VoiceBench 89,4 vs. 88,8; Hugging Face Open ASR 5,95 WER vs. 6,55. Bei ScreenSpot-Pro liegt Qwen3-Omni knapp vorne (59,7 vs. 57,8) — fast unique Stelle, an der Nemotron geschlagen wird.

Hardware-Anforderungen: 25 GB RAM bei 4-Bit (UD-Q4_K_XL), 36 GB bei 8-Bit. Das Modell läuft also auf einer einzelnen RTX 4090 oder RTX 5090, oder zwei Consumer-GPUs für höhere Präzision. Drei offizielle Checkpoints: BF16, FP8 und NVFP4 (auf 18B komprimiert, NVIDIAs hauseigenes 4-Bit-Format). Training selbst lief auf 32 bis 128 H100/B200-Knoten via Ray-RL. Das Lizenz-Konstrukt ist branchenführend: Open Weights plus offene Trainings-Datensätze plus offene Recipes auf Hugging Face — Llama 4 und Gemma 4 liefern nur Weights, ohne Datasets oder Trainings-Pipelines.

Strategisch positioniert NVIDIA das Modell als „Perception-Sub-Agent“ in größeren Agent-Systemen — kombinierbar mit Nemotron 3 Super (120B, vom Dezember) oder Nemotron 3 Ultra für Planning- und Execution-Layer. Konkrete Demo-Use-Cases im Launch: GUI-Agent navigiert autonom die Virginia-DMV-Website; Long-Form-Audio-ASR mit verschiedenen Sprechern, Akzenten und Lärm; Video-Meeting-Analyse mit synchronen Slides und Narration; Soundscape-Verständnis. Für SaaS- und Tech-Entscheider verschiebt der Launch zwei Architekturlinien. Erstens: Multimodal-Agent-Use-Cases sind ohne Cloud-API-Abhängigkeit machbar — eine RTX 5090 für 2.500 Euro genügt für serienreife Inferenz. Zweitens: Hybrid-Architekturen (Mamba + MoE + Attention) werden zum neuen Stand der Technik — wer auf Pure-Transformer-Stacks plant, sollte spätestens jetzt eine technische Strategie für hybride Modell-Familien evaluieren.

AI-Engineering · System-Prompts

OpenAI patcht Codex per System-Prompt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons“

Hintergrund & Analyse

Was klingt wie ein Witz, ist die fundamentale Lehre des Vorfalls: Production-Coding-Agents werden zu großen Teilen via System-Prompt-Geflicke stabilisiert, nicht via sauberes Re-Training. Will Knight von Wired brach die Story am Dienstagvormittag, Simon Willison bestätigte sie wenige Stunden später auf simonwillison.net mit dem Original-Prompt-Snippet aus dem geleakten Codex-Base-Instructions-Repository (asgeirtj/system_prompts_leaks auf GitHub).

Hintergrund: GPT-5.4 nutzt seit der Auslieferung als Codex-Engine zwanghaft die Wörter „goblins“ und „gremlins“ als Shorthand für „versteckte Komplexität“. Beispiele aus User-Reports auf Hacker News (Item #47319285): „this stuff turns into legal goblins fast“, „hiding exclusions like little goblins“, „But here's the important goblin“. Frequenz: nach mehreren Berichten „once every hour“ in produktiven Coding-Sessions. Chris Nicholson formulierte die Diagnose auf Substack: „5.2 constantly complained that things aren't about vibes; 5.4 constantly calls things gremlins and goblins in a chummy tone.“ Die Theorie der Hacker-News-Kommentatoren: möglicherweise ein Watermark-Versuch, der das Subtilitäts-Ziel überschossen hat — oder schlicht Trainings-Drift in Richtung „chummy tone“ aus den GPT-5-Personality-Updates.

OpenAIs Antwort ist instruktiv. Statt Fine-Tuning oder RLHF-Iteration — beides aufwendig, beides würde andere Modell-Eigenschaften touchieren — kam ein „duct-tape prompting“-Patch: eine Zeile in die base_instructions von Codex, mehrfach zur Verstärkung wiederholt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.“ Der Witz der Wired-Story ist die Brute-Force-Liste: Raccoons und Pigeons wurden offenbar prophylaktisch hinzugefügt, falls das Modell auf alternative Tier-Metaphern ausweichen sollte.

Der Vorfall illustriert ein systemisches Phänomen jenseits des Schmunzlers. Production-Coding-Agents — Codex, Claude Code, Cursor, Lovable, Replit — werden alle in einer ähnlichen Architektur deployed: Frontier-LLM plus mehrtausendzeiliger System-Prompt mit Verhaltensregeln, Sicherheitsklauseln und Persönlichkeits-Constraints. Anthropic verwendet bei Claude Code vergleichbare Mechanismen (siehe asgeirtj/system_prompts_leaks). Der Pliny-the-Liberator-Leak des ursprünglichen Codex-Prompts vom Februar 2026 hatte bereits über 4.000 Zeilen offenbart. Das gpt-5.1-codex-Issue #6765 dokumentierte ähnliche Quirks (Firebase-Halluzinationen). Tenor in Engineering-Communities: „It's a harness/environment problem, not a model problem.“

Für Tech-Entscheider, die Coding-Agents in produktive Engineering-Workflows einbetten, ergeben sich drei praktische Beobachtungen. Erstens: Modell-Quirks sind kein Edge-Case — sie sind erwartbare Begleiterscheinung von Trainings-Drift, RLHF-Anpassungen und Personality-Updates. Zweitens: Anbieter-System-Prompts sind nicht statisch — sie ändern sich wöchentlich, oft ohne Release-Notes. Wer Konsistenz erwartet, sollte versionierbare Anbieter-Konstellationen evaluieren. Drittens: Eigene Skill- und Prompt-Layer (à la Claude Skills, Codex Skills) gewinnen strategisch — sie geben Engineering-Teams die Möglichkeit, das Anbieter-Verhalten oben drauf zu konditionieren, ohne auf den nächsten Modell-Update zu warten.

Reportage

Die KI-Bubble unter Stress-Test: Was OpenAIs Umsatz-Miss für die Lieferkette bedeutet

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

Logic Logo
Spec-driven Agent-Backend-as-a-Service: man beschreibt per Spec den gewünschten Agenten, Logic spinnt Infrastruktur, Tests und Versionierung selbst auf.
Steve Krenzel (Ex-Twitter) und Jess Garms (CTO) launchen mit Founders' Co-op, Audacious und Ali Partovi's Neo-Backing. IFBench-Score von 83,3% — höchster auf der Artificial Analysis Leaderboard. Typed I/O, automatische API-Exposure, synthetische Test-Generation, immutable Versionierung. Setzt auf Spec-First-Workflow statt klassischer LLM-Orchestrierung.
Agent-Backend · 27. April 2026
Dirac Logo
Open-Source-Coding-Agent mit aggressiver Token-Effizienz: hash-anchored Edits, AST-Manipulation und parallele Operations für 50–80 Prozent günstigere API-Calls.
Dirac Delta Labs (Max Trivedi) hat TerminalBench-2 mit 65,2 Prozent auf Gemini-3-flash-preview getoppt — schlägt Junie CLI (64,3) und die Google-Baseline (47,6). Show-HN-Drop am 27. April; Open-Source-Release mit kompletter Recipe für Multi-Step-Coding-Aufgaben. Bemerkenswert ist die Optimierung auf Context-Curation statt brute-force-Erweiterung.
Coding-Agent · 27. April 2026
Dex Logo
AI Talent Agent für AI-Researchers, Software-Devs und ML-Engineers — kommuniziert per Voice/Text mit Kandidaten, surfact passende Roles, bereitet Interviews vor.
UK-Startup von Harry Uglow (CTO) und Paddy Lambros (CEO; ex-Atomico). 5,3 Mio. USD Seed (Notion Capital, a16z Speedrun, Concept Ventures, OpenAI Angels). 15.000 Engineers angemeldet, 50 Kunden — darunter Lovable, ElevenLabs, Synthesia, Granola, Fyxer. Spezialisierung auf Hard-to-Fill-Tech-Roles.
HR-Tech · 28. April 2026
TriFetch Logo
Multilinguale Voice-Agents für Specialty Clinics — übernehmen Patient-Calls, Referral-Routing und Prior-Authorization-Workflows.
Varuni Sarwal und Rosemary He (PhD UCLA) bringen TriFetch nach 1,9 Mio. USD Pre-Seed (Nexus Venture Partners, Angels von Google/Hippocratic/Mercor/MIT) aus dem Stealth. Erste EMR-agnostische Automation-Layer — integriert in NextGen, eClinicalWorks und Athena. Kundennutzen: 50 Prozent Reduktion administrativer Klinikkosten.
Healthcare-AI · 27. April 2026
Manifest OS Logo
AI-native Plattform für Anwaltskanzleien: End-to-End-Lösung für Client-Communication, Research, Document-Drafting und Billing — verbunden mit eigener Outcome-Pricing-Kanzlei.
Größte Series A in Legal-Tech-Geschichte: 60 Mio. USD bei 750-Mio.-Bewertung (Menlo Ventures + Kleiner Perkins). Founder Dan Mishin betreibt unter „Manifest Law“-Brand eigene Kanzleien — Hebel zur Migration von Billable Hours zu Outcome-Pricing. Über 100 Anwälte nutzen die Plattform bereits.
Legal-Tech · 28. April 2026
QuoIntelligence Logo
AI-getriebene Cyber- und Geopolitical-Threat-Intelligence — kombiniert AI-Plattform „Mercury“ mit menschlichen Analysten und einem Conversational-AI-Analysten namens KARLA.
Frankfurter Startup, 7,3 Mio. EUR Series A (Elevator Ventures / Raiffeisen Bank, BMH, eCAPITAL). EU-souveräne Datenhaltung als USP. KARLA fungiert als Always-on Threat-Interface — beantwortet Fragen zu NIS2, DORA, Supply-Chain-Risiken in Plain Language.
Security · 27. April 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Nvidia Nemotron 3 Nano Omni - First Test and Impression
Tutorial
All About AI (222.000 Subs) · 14:09
Hands-on-Test des am 28. April released Nemotron 3 Nano Omni. Der Creator führt durch Bild-, Audio- und Video-Verarbeitung lokal auf einer einzelnen GPU, vergleicht die OCR-Performance mit Qwen3-Omni und prüft die Long-Context-Stärke an einem mehrhundertseitigen Dokument. Klare Empfehlung für Engineering-Teams, die Multimodal-Inferenz on-prem evaluieren.
Hermes Agent w/ ChatGPT 5.5 is literally magic
Tutorial
Alex Finn (193.000 Subs) · 17:17
Alex Finn kombiniert den selbst-improvenden Hermes Agent mit GPT-5.5 als Backend und zeigt einen End-to-End-Coding-Workflow inklusive Repo-Refactoring und Test-Generation. Praktischer Setup-Guide mit konkreten Konfigurations-Tipps. Wertvoll für Devs, die Multi-Modell-Stacks (OpenAI + Anthropic + lokale Modelle) hinter einem einzigen Agent-Frontend bündeln wollen.