Die Inferenz

Wirtschaft · KI-Aktien

OpenAI verfehlt Umsatzziele — und reißt Oracle, CoreWeave und SoftBank mit

28. April 2026

Das Wall Street Journal berichtete am Dienstag, dass OpenAI sein internes Ziel von einer Milliarde wöchentlich aktiver ChatGPT-Nutzer zum Jahresende 2025 deutlich verfehlt hat — ebenso wie mehrere monatliche Umsatzziele Anfang 2026. Die Reaktion an den Märkten war heftig: SoftBank verlor in Tokio rund zehn Prozent, Oracle fiel um bis zu sieben, CoreWeave um 5,4, AMD und Broadcom je rund vier Prozent. Sam Altman und CFO Sarah Friar konterten mit dem Statement „This is ridiculous“ und „firing on all cylinders“ — doch die Vertrauenskrise hat die ganze Lieferkette infiziert.

Hintergrund & Analyse

Die WSJ-Story von Berber Jin und Tom Dotan ist die erste seriöse Stresstest-Episode der KI-Bubble. Drei zentrale Fakten: ChatGPTs Wachstum hat sich Ende 2025 verlangsamt; das interne Ein-Milliarden-WAU-Ziel zum Jahreswechsel wurde laut The Information-Vorabbericht bei rund 700 Millionen verfehlt; mehrere monatliche Umsatzziele Anfang 2026 wurden ebenfalls nicht erreicht. Der wichtigste Treiber des Slowdowns: Anthropic hat im Coding- und Enterprise-Segment substantielle Marktanteile geholt — Claude Code allein wächst nach Sacra-Daten von 1 Mrd. ARR Ende 2024 auf 19 bis 30 Milliarden Dollar (je nach Brutto-/Nettomethodik) im April 2026, OpenAI selbst liegt bei 24 bis 25 Milliarden ARR.

Die heikelste Passage der WSJ-Recherche betrifft CFO Sarah Friar: Sie soll intern gewarnt haben, OpenAI könnte „möglicherweise nicht in der Lage sein, künftige Computing-Verträge zu finanzieren“, wenn das Umsatzwachstum nicht beschleunigt. Bei einer aktuellen Bewertung von 852 Milliarden Dollar (122-Mrd.-Funding-Round im März, IPO-Filing für Q4 2026 in Vorbereitung) wäre eine Cashflow-Krise innerhalb der Compute-Verträge ein systemisches Ereignis: Allein das Stargate-Projekt mit Oracle in Abilene/Texas hat ein Volumen von 300 Milliarden Dollar, dazu kommen 50 Milliarden bei AWS (siehe Artikel 3) und der bisherige Azure-Deal von rund 250 Milliarden Dollar. Insgesamt hat OpenAI nach Bloomberg-Recherchen rund 600 Milliarden Dollar an künftigen Compute-Verpflichtungen unterzeichnet — mehr als das 24-fache seines aktuellen ARR.

Die Marktreaktion am Dienstag war differenzierter, als die Schlagzeilen suggerieren. SoftBank — größter Single-Investor in OpenAI über die Vision-Funds — verlor in Tokio rund zehn Prozent. CoreWeave (größter Hyperscaler-Mieter von OpenAI-Kapazität) gab 5,4 Prozent ab, Oracle (Stargate-Partner) bis zu sieben Prozent, AMD (250.000-MI400-GPU-Deal vom Oktober 2025) rund vier Prozent, Broadcom ebenfalls vier Prozent. Nvidia selbst gab nur ein Prozent nach — laut CNBC die schwächste Mag-7-Aktie des Tages, aber bei weitem nicht der erwartete Crash. Microsoft drehte im Tagesverlauf ins Plus: Die am Vortag verkündete Lockerung der OpenAI-Cloud-Exklusivität bringt Redmond strukturell den größten Vorteil, weil Azure nicht mehr alleine die Compute-Last (und damit das Compute-Risiko) trägt.

Sam Altman und Sarah Friar veröffentlichten am späten Dienstagabend ein gemeinsames Statement: „This is ridiculous. We are totally aligned on buying as much compute as we can and working hard on it together every day.“ Die offizielle OpenAI-Position fasste Bloomberg in der Headline zusammen: „firing on all cylinders“. Drei Aspekte fehlen in der Verteidigung. Erstens: Keine konkrete Zahlennennung — weder zur tatsächlichen WAU noch zum aktuellen Monatsumsatz. Zweitens: Keine Stellungnahme zur intern dokumentierten Friar-Sorge. Drittens: Keine Aussagen zu möglichen Anpassungen der Compute-Verpflichtungen — die nach Fortune-Recherchen mittelfristig vor Anwälten landen könnten, wenn Performance-Klauseln gerissen werden.

Die Analysten spalten sich. Mizuho-Analyst Jordan Klein hält die Sorge für überzogen — niemand, der gerade Equity bei 852 Mrd. gezeichnet habe, werde wegen einer WSJ-Story aussteigen. John Belton von Gabelli Funds nannte den Bericht „nichts wirklich Neues“. Luke Rahbari von Equity Armor verwies darauf, dass KI-Branchenprognosen historisch 25 bis 50 Prozent Fehlermarge haben — Bewegungen wie diese seien gesund. Auf der anderen Seite: Jim Cramer (CNBC) sieht den Pullback als Beweis, dass die jüngste Rally „overheated“ war. Bridgewater-CIO Bob Prince hatte bereits letzte Woche gewarnt, dass ein Vertrauensverlust bei Nvidia 6 bis 8 Prozent S&P-500-Risiko bedeuten würde — Nvidia macht aktuell rund 8 Prozent des Index aus.

Für SaaS- und Tech-Entscheider ist der Tag aus drei Gründen relevant. Erstens: Vendor-Diversifikation ist nicht mehr nice-to-have. Wer einseitig auf OpenAI-APIs aufbaut, hat ein dokumentiertes Cashflow-Risiko des Anbieters in den Modell-Entscheidungen zu verarbeiten — Multi-Cloud-Architekturen mit Anthropic-Backup, Open-Source-Fallback (DeepSeek V4, Llama 4, Qwen 3) oder hybridem Routing werden Pflicht. Zweitens: Pricing-Stabilität ist fragil. Wenn OpenAI Compute-Verpflichtungen aktivieren muss, wird der Druck auf API-Margen wachsen — heute scheinbar attraktive Preise könnten 2027 anders aussehen. Drittens: SaaS-Bewertungen mit hohen ARR-Multiples (Cursor 20 Mrd. bei 1 Mrd. ARR; Perplexity 20 Mrd. bei 148 Mio. ARR; Glean 7,2 Mrd. bei 200 Mio. ARR) hängen mittelbar an OpenAIs Trajektorie. Wir analysieren die Implikationen ausführlich in unserer heutigen Reportage.

Quellen

Justiz · Musk vs. Altman

„Star Trek statt Terminator“: Musk im Zeugenstand — Larry Page-Anekdote, 134 Mrd. Forderung und der Zilis-E-Mail-Konter

28. April 2026

Wie wir in unserer Ausgabe vom 28. April berichteten, hatte die Liability-Phase im OpenAI-Prozess in Oakland mit Eröffnungsplädoyers begonnen. Am Dienstag stand Musk dann erstmals selbst im Zeugenstand. Sein Pop-Kultur-Pitch an die Jury: „We want to be in a Gene Roddenberry movie, like Star Trek, not so much a James Cameron movie, like Terminator.“ Die zentrale Anekdote zur OpenAI-Gründung: Larry Page habe ihn 2015 einen „Speziesisten“ genannt. OpenAIs Konter: eine E-Mail von Shivon Zilis, die Musks Zustimmung zur For-Profit-Konversion dokumentiert.

Hintergrund & Analyse

Musks Auftritt war eine Mischung aus Pop-Kultur-Pitch, Gründungsmythos und juristisch kalkulierten Aussagen. Auf die Frage, warum OpenAI gegründet wurde, lieferte er den Geschworenen die Star-Trek-vs.-Terminator-Metapher und die Risiko-Einschätzung: „It could make us more prosperous, but it could also kill us all.“ Er erwarte, dass KI „bereits im nächsten Jahr smarter als jeder Mensch“ sei. Diese Einlassungen dienten — laut Fortune-Analyse — primär dazu, Musk als visionären Treuhänder einer Charity-Mission zu positionieren, nicht als rationalen Investor mit kommerziellen Interessen.

Die zentrale Founding-Anekdote war die wirksamste Erzählung des Tages: „The reason OpenAI exists is because Larry Page called me a 'speciesist'.“ Bei einer Diskussion 2015 habe Page ihn so bezeichnet, weil er Menschen über digitale Lebensformen stelle. OpenAI sei daraufhin — wörtlich — „als open-source nonprofit, das Gegenteil von Google“ konzipiert worden. Fortune, CNBC und Calcalist dokumentierten den Satz wortgleich. Musks Anwalt Steven Molo nutzte die Anekdote als Hebel: Wenn Page mit dem „Speziesisten“-Vorwurf der Auslöser war, konnte OpenAI nie als gewöhnliche For-Profit-Company gemeint sein.

Auf die Eigentumsfrage antwortete Musk unter Eid: „I came up with the idea, the name, recruited the key people, taught them everything I know, provided all the initial funding.“ Sein dokumentierter eigener finanzieller Beitrag: rund 38 Millionen Dollar — etwa ein Vierhundertstel der Forderung. Zur Charity-Frage formulierte er pathetisch: „If we make it okay to loot a charity, the entire foundation of charitable giving in America will be destroyed.“ Konkret fordert er bis zu 134 Milliarden Dollar (manche Filings nennen 150 Milliarden inklusive Microsoft-Lizenzwert) — komplett an OpenAIs gemeinnützige Stiftung, plus Absetzung von Sam Altman und Greg Brockman, plus Rückführung in den reinen Non-Profit-Status. Musk verzichtete unter Eid auf jeden persönlichen Schadenersatzanspruch.

OpenAIs Counter-Anwalt William Savitt von Wachtell, Lipton, Rosen & Katz präsentierte als Schlüsselbeweis eine E-Mail des damaligen OpenAI-Boardmitglieds Shivon Zilis (Mutter mehrerer Musk-Kinder) an Musk-Vertrauten Sam Teller. Zilis skizzierte zwei Restrukturierungsoptionen: „Roll everything into a B corp“ und „OpenAI C Corp and OpenAI non-profit“. Savitts juristisches Fazit: „He supported a for-profit, so long as he was in control.“ Damit untergräbt OpenAI Musks „Verrat“-Narrativ — er habe das For-Profit-Modell selbst befürwortet, solange er die Kontrolle behielt. Die Klage als „pageant of hypocrisy“, motiviert durch Rache nach Musks 2018er-Übernahmeangebot, das vom Board abgelehnt wurde.

Musks Auftritt im Saal wurde von Beobachtern unterschiedlich bewertet. The Verge titelte „Elon Musk appeared more petty than prepared“: Musk habe gegen Ende der Aussage müde gewirkt, mehrfach Wasser getrunken, sich durchs Haar gefahren. Schon vor Sitzungsbeginn hatte Richterin Yvonne Gonzalez Rogers ihn wegen seiner X-Tweets („Scam Altman“) gerügt und mit einer Gag-Order gedroht. Molo nutzte in seinem Eröffnungsplädoyer die Bildmetapher: ein Museum dürfe einen Gift Shop haben, „but the museum store can't loot the museum and sell the Picassos.“ Am Mittwoch (heute) kehrt Musk für das Cross-Examination durch Savitt zurück. Die Zeugenliste der nächsten Tage: Greg Brockman (2,5 Stunden), Microsoft-CEO Satya Nadella (1 Stunde), Ex-OpenAI-Chefwissenschaftler Ilya Sutskever (30 Minuten), Mira Murati, Shivon Zilis (3 Stunden) und Sam Altman selbst. Die Liability-Phase läuft bis Mitte Mai.

Quellen

Cloud · Multi-Cloud-Pivot

OpenAI auf AWS: Bedrock mit GPT-5.4, Codex und Managed Agents — 24 Stunden nach dem Microsoft-Bruch

28. April 2026

Genau einen Tag nach dem Ende der Cloud-Exklusivität mit Microsoft (siehe unsere Ausgabe vom 28. April) hat Amazon OpenAI-Modelle in Amazon Bedrock verfügbar gemacht: GPT-5.4 ab sofort, GPT-5.5 in den nächsten Wochen, Codex direkt in der AWS-Umgebung — und ein gemeinsam entwickelter „Bedrock Managed Agents“-Service. Hinter der Ankündigung steht der 50-Milliarden-Dollar-Compute-Deal vom Februar plus 2 Gigawatt Trainium-Kapazität. AWS-CEO Matt Garman sprach offen aus, was Cloud-Architekten lange wussten: „We've forced our customers, for the last couple of years, to get great OpenAI models, to go to other places.“

Hintergrund & Analyse

Drei Produkte gleichzeitig in Limited Preview: Erstens — OpenAIs Frontier-Modelle auf Amazon Bedrock, integriert via bestehende Bedrock-APIs neben Anthropic, Meta und Mistral. GPT-5.4 ab sofort, GPT-5.5 in den nächsten Wochen. Vollständige Enterprise-Controls (IAM, PrivateLink, Guardrails, Encryption, CloudTrail). Wichtigster kommerzieller Hebel: Die Nutzung zählt auf bestehende AWS-Cloud-Commitments an, statt einen separaten Vertrag zu erfordern. Zweitens — Codex auf Bedrock, OpenAIs Coding-Agent (laut OpenAI 4 Millionen Weekly Users) verfügbar via Codex CLI, Desktop-App und VS-Code-Extension innerhalb der AWS-Umgebung. Drittens — und strategisch am bedeutsamsten — „Bedrock Managed Agents, powered by OpenAI“: ein gemeinsam entwickelter Service, in dem Agenten eine eigene Identität mit Action-Logging haben, in der Customer-Umgebung laufen und mit Bedrock AgentCore integrieren.

Die Schnelligkeit der Auslieferung — 24 Stunden nach Aufhebung der Exklusivität — verrät, dass an dem Setup seit Wochen oder Monaten parallel gearbeitet wurde. Matt Garman bestätigte das im Stratechery-Interview mit Ben Thompson: Swami Sivasubramanian, AWS-VP für Agentic AI, habe „mit einem Team aus sechs Principal Scientists in nur drei Monaten“ einen Demo-Personal-Desktop-Assistant gebaut — möglich nur, wenn OpenAI-Modelle bereits internen Zugriff hatten. Garmans Statement zum Launch: „This is what our customers have been asking us for for a really long time. Their production applications run in AWS. Their data is in AWS. They trust the security of AWS, and we've forced them for the last couple of years, to get great OpenAI models, to go to other places.“ Andy Jassy bezeichnete in der parallel laufenden Earnings-Vorbereitung die Aufweichung der MS-Exklusivität als „very interesting announcement“.

Die wirtschaftliche Mechanik ist subtil. Der 50-Mrd.-Compute-Deal hat zwei Komponenten: 15 Milliarden Initial-Investment plus 35 Milliarden an performance-gebundenen Verpflichtungen. AWS wird im Gegenzug exklusiver Third-Party-Distributor für OpenAIs Enterprise-Agent-Plattform „Frontier“. OpenAI verpflichtet sich zu 2 Gigawatt Trainium-Capacity — Amazon hatte sein Anthropic-Investment parallel auf bis zu 25 Mrd. mit ~100-Mrd.-Cloud-Commitment aufgestockt. Damit besitzt AWS nun strukturell die zwei kommerziell wichtigsten Frontier-Familien (OpenAI + Anthropic) — eine Position, die Microsoft trotz seines OpenAI-Vorsprungs nie hatte.

Was passiert mit Anthropic? Offiziell keine Reaktion. The Information-Quellen sehen aber einen klaren Anthropic-Subtext: Claude Cowork bleibt auf Bedrock, Anthropic trainiert weiter auf Trainium und Graviton. AWS positioniert sich als „neutraler Marktplatz“ — bewusst gegen Microsofts implizite OpenAI-Bevorzugung und gegen Googles Vertex-Vertikalisierung um Gemini. Die strategische Wette: Enterprise-CIOs wollen Multi-Modell-Optionen unter einem Vertrag, einer Compliance-Architektur, einem Billing-Stack. AWS positioniert Bedrock als diesen neutralen Layer.

Drei praktische Konsequenzen für SaaS- und Tech-Entscheider. Erstens: Wer aktuell Azure-OpenAI nutzt, sollte Bedrock-Pricing und Latenz-Profile in den nächsten zwei Wochen evaluieren — die exakten Token-Preise sind noch nicht öffentlich, aber Konsumtion auf bestehende AWS-Commitments schafft Verhandlungsmacht. Zweitens: Bedrock Managed Agents sind ein direkter Konkurrent zu Anthropics Managed Agents (April 2026) und Microsofts Copilot Studio — wer Agent-Architekturen plant, hat jetzt drei kommerzielle Optionen plus mehrere Open-Source-Frameworks. Drittens: Codex auf Bedrock heißt, dass die Coding-Agent-Wars in die Cloud-Layer wandern — Cursor, Lovable und Replit haben damit nicht mehr nur Claude Code als Konkurrenten, sondern integrierte Cloud-Agent-Plattformen.

Quellen

Geopolitik · Pentagon-AI

Google springt für Anthropic ein: Pentagon erhält klassifizierten KI-Zugang — 950 Mitarbeiter protestieren

28. April 2026

Nachdem Anthropic im März die Pentagon-Nutzung von Claude für Massenüberwachung und vollautonome Waffen verweigert hat, springt nun Google ein. Das Verteidigungsministerium darf Googles KI-Modelle in klassifizierten Netzwerken einsetzen — laut TechCrunch „im Wesentlichen für alle gesetzlich zulässigen Anwendungen“. 950 Google-Mitarbeiter haben einen offenen Brief auf notdivided.org unterzeichnet, der das Unternehmen auffordert, Anthropics Beispiel zu folgen. Damit konzentriert sich der Pentagon-AI-Markt auf OpenAI, xAI und nun Google — Anthropic, der einzige Frontier-Anbieter mit Classified-Ready-Systemen, ist juristisch isoliert.

Hintergrund & Analyse

Die Geschichte ist eine Verkettung aus drei Akten. Akt eins: Anfang März 2026 weigerte sich Anthropic-CEO Dario Amodei, Claude für zwei Pentagon-Anwendungen freizugeben — „domestic mass surveillance of Americans“ und „fully autonomous weapons with no humans assisting in targeting or firing decisions“. Beide Beschränkungen sind Teil von Anthropics Acceptable Use Policy. Akt zwei: Am 5. März brandmarkte das DoD Anthropic offiziell als „supply-chain risk“ — eine Bezeichnung, die sonst ausländischen Gegnern vorbehalten ist. Akt drei: Am 26. März erwirkte Anthropic eine einstweilige Verfügung gegen die Designation. Pikant: Das Pentagon nutzt Claude weiter über Palantirs Maven Smart System in der Iran-Operation; die NSA setzt laut TechCrunch-Bericht vom 20. April Anthropics Mythos-Modell ein.

Die jetzt von Julie Bort (TechCrunch, basierend auf Wall Street Journal) gebrochene Story ist Akt vier: Google hat dem DoD Zugang zu seinen KI-Modellen „for classified networks“ gewährt — laut TechCrunch „essentially allowing all lawful uses“. Vertragslaufzeit, Volumen und konkrete Modell-Namen (vermutlich Gemini auf Vertex AI for Government) wurden nicht genannt; Google wollte nicht kommentieren. Eine kosmetische Schutzklausel hat es wohl in den Vertragstext geschafft: Die KI sei „nicht intendiert“ für „domestic mass surveillance or autonomous weapons“ — exakt die gleichen Schwellen, die Anthropic durchsetzte. TechCrunch merkt jedoch an: „It is unclear whether such provisions are legally binding or enforceable.“ Das ist deutlich schwächer als Anthropics harte AUP-Limits.

Mitarbeiter-Reaktion bei Google: 950 Unterzeichner auf notdivided.org, die Google auffordern, Anthropics Beispiel zu folgen — keine KI ohne vergleichbare Guardrails an das DoD zu verkaufen. Der offene Brief verweist explizit auf Anthropics „supply-chain risk“-Designation als politisches Druckmittel und auf das Risiko, dass Schutzklauseln im Vertragstext unverbindlich sind. Google ist nach OpenAI (Pentagon-Vertrag von Anfang März) und xAI (Vertrag vom 16. März; Senatorin Elizabeth Warren stellte kritische Anfragen) der dritte Anbieter, der die von Anthropic vakante Position übernimmt. Wired dokumentierte parallel, dass OpenAI-Präsident Greg Brockman 25 Mio. USD an die MAGA Inc. Super PAC spendete — ein politischer Kontrast zu Amodei, der dem DoD nach The Information-Recherchen unterstellte, das „supply-chain risk“-Brandmarken sei „retaliatory and punitive“ als Reaktion auf seine Weigerung, Trump zu loben oder zu spenden.

Strukturell entsteht ein scharfes Asymmetrie-Bild der KI-Sicherheits-Politik: Anthropic — der einzige Frontier-Anbieter mit Classified-Ready-Systemen — verzichtet auf einen wachsenden Defense-Markt aus Acceptable-Use-Gründen und nimmt dafür juristische Isolation und politische Stigmatisierung in Kauf. OpenAI, Google und xAI bedienen den Markt mit weicheren Klauseln — und erhalten Zugang zu klassifizierten Netzwerken. Dean Ball, ehemaliger Trump-AI-Berater, nannte die Anthropic-Designation in einer Podcast-Diskussion „death rattle of the American republic“. Die kommerzielle Bilanz für Anthropic dürfte dennoch positiv sein: Trotz oder wegen der Position wuchs der ARR von 9 Mrd. (Ende 2025) auf 19 bis 30 Mrd. (April 2026) — Enterprise-Kunden honorieren die klare AUP als Compliance-Asset.

Für Tech-Entscheider in regulierten Branchen — Finanzen, Gesundheit, kritische Infrastruktur — wird Anthropics Hardline-Politik strukturell zum Differentiator. Wer Compliance-Anforderungen aus EU AI Act Art. 50 (ab August 2026), DORA oder NIS2 abbilden muss, hat mit klar dokumentierten AUP-Grenzen einen sauberen Audit-Pfad. Die offene Frage: Wann werden europäische Datenschutz-Behörden den Bogen schlagen und Google-Vertex-AI-Nutzung für sensible Anwendungen mit Verweis auf den Pentagon-Vertrag kritisch prüfen? Erste Andeutungen kamen am Dienstag aus Frankreich (CNIL) und Bayern (BayLDA).

Quellen

Modelle · NVIDIA Open Source

NVIDIA Nemotron 3 Nano Omni: 30B-Hybrid-MoE für Multimodal-Agenten — bei 9-facher Throughput-Rate

28. April 2026

Mit Nemotron 3 Nano Omni veröffentlicht NVIDIA das aggressivste Open-Weights-Modell des Frühjahrs: 30 Milliarden Parameter, davon 3 Milliarden aktiv, hybride Mamba+MoE-Architektur, 256K-Kontextfenster, native Audio- und Video-Verarbeitung — und eine bis zu neunfache Throughput-Rate gegenüber dem direkten Konkurrenten Qwen3-Omni. Das Modell läuft bei 4-Bit-Quantisierung auf einer einzelnen RTX-4090. Trainings-Datensätze und Recipes werden ebenfalls offengelegt — ein Stack, der Llama 4 und Gemma 4 strukturell überholt.

Hintergrund & Analyse

Die wichtigste technische Innovation steckt im Architektur-Mix. Nemotron 3 Nano Omni kombiniert 23 Mamba-Layer (State-Space-Modelle für effiziente Long-Context-Verarbeitung), 23 MoE-Layer (128 Experten, Top-6-Routing) und 6 Grouped-Query-Attention-Layer in einem 30B-Backbone — die „30B-A3B“-Notation bezieht sich auf 30 Milliarden Gesamtparameter mit drei Milliarden aktiv pro Forward-Pass. Vision-Encoder ist NVIDIAs C-RADIOv4-H, Audio-Encoder das Parakeet-TDT-0.6B-v2. Damit verarbeitet Nemotron 3 Nano Omni Text, Bild, Audio und Video in einer geteilten multimodalen Token-Sequenz — ohne separate Perception-Modelle vor- oder nachschalten zu müssen. Bilder werden dynamisch von 1.024 bis 13.312 Patches skaliert (entspricht 512×512 bis 1840×1840 Pixel).

Die Long-Context-Spezifikation ist außergewöhnlich: 256K Kontextfenster, Verarbeitung von 5+ Stunden multimodalem Input, Audio-Training bis 1.200 Sekunden (20 Minuten), Dokumente mit 100+ Seiten inklusive Cross-Page-References, Tabellen und Formeln. Konkretes Anwendungsbeispiel aus dem NVIDIA-Blog: ein Adobe-Finanzreport mit 138 Seiten wird in einem einzigen Pass analysiert — inklusive korrekter Querverweise zwischen Bilanz und Cashflow-Statement.

Die Performance-Zahlen sind aggressiv. NVIDIA selbst formuliert: „delivers up to 9x higher throughput and 2.9x the single-stream reasoning speed on multimodal use-cases“. In der Praxis: 7,4-fache System-Effizienz bei Multi-Dokument-Cases, 9,2-fache bei Video-Cases gegenüber anderen offenen Omni-Modellen. Die direkten Benchmark-Vergleiche gegen Qwen3-Omni 30B-A3B (ebenfalls von Alibaba im März 2026 veröffentlicht): OCRBenchV2-En 65,8 vs. 61,2; MMLongBench-Doc 57,5 vs. 38,0; OSWorld GUI-Agent 47,4 vs. 11,0; Video-MME 72,2 vs. 70,5; VoiceBench 89,4 vs. 88,8; Hugging Face Open ASR 5,95 WER vs. 6,55. Bei ScreenSpot-Pro liegt Qwen3-Omni knapp vorne (59,7 vs. 57,8) — fast unique Stelle, an der Nemotron geschlagen wird.

Hardware-Anforderungen: 25 GB RAM bei 4-Bit (UD-Q4_K_XL), 36 GB bei 8-Bit. Das Modell läuft also auf einer einzelnen RTX 4090 oder RTX 5090, oder zwei Consumer-GPUs für höhere Präzision. Drei offizielle Checkpoints: BF16, FP8 und NVFP4 (auf 18B komprimiert, NVIDIAs hauseigenes 4-Bit-Format). Training selbst lief auf 32 bis 128 H100/B200-Knoten via Ray-RL. Das Lizenz-Konstrukt ist branchenführend: Open Weights plus offene Trainings-Datensätze plus offene Recipes auf Hugging Face — Llama 4 und Gemma 4 liefern nur Weights, ohne Datasets oder Trainings-Pipelines.

Strategisch positioniert NVIDIA das Modell als „Perception-Sub-Agent“ in größeren Agent-Systemen — kombinierbar mit Nemotron 3 Super (120B, vom Dezember) oder Nemotron 3 Ultra für Planning- und Execution-Layer. Konkrete Demo-Use-Cases im Launch: GUI-Agent navigiert autonom die Virginia-DMV-Website; Long-Form-Audio-ASR mit verschiedenen Sprechern, Akzenten und Lärm; Video-Meeting-Analyse mit synchronen Slides und Narration; Soundscape-Verständnis. Für SaaS- und Tech-Entscheider verschiebt der Launch zwei Architekturlinien. Erstens: Multimodal-Agent-Use-Cases sind ohne Cloud-API-Abhängigkeit machbar — eine RTX 5090 für 2.500 Euro genügt für serienreife Inferenz. Zweitens: Hybrid-Architekturen (Mamba + MoE + Attention) werden zum neuen Stand der Technik — wer auf Pure-Transformer-Stacks plant, sollte spätestens jetzt eine technische Strategie für hybride Modell-Familien evaluieren.

Quellen

AI-Engineering · System-Prompts

OpenAI patcht Codex per System-Prompt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons“

28. April 2026

GPT-5.4, das Modell hinter OpenAIs Codex, hat ein hartnäckiges Quirk: Es streut „goblins“ und „gremlins“ als Metaphern für versteckte Komplexität in Code-Reviews ein — „this stuff turns into legal goblins fast“, „hiding exclusions like little goblins“. Statt das Modell neu zu fine-tunen, hat OpenAI eine Zeile in die Base-Instructions gepackt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.“ Mehrfach wiederholt, zur Verstärkung. Eine kurze Geschichte über die Realität moderner Coding-Agents.

Hintergrund & Analyse

Was klingt wie ein Witz, ist die fundamentale Lehre des Vorfalls: Production-Coding-Agents werden zu großen Teilen via System-Prompt-Geflicke stabilisiert, nicht via sauberes Re-Training. Will Knight von Wired brach die Story am Dienstagvormittag, Simon Willison bestätigte sie wenige Stunden später auf simonwillison.net mit dem Original-Prompt-Snippet aus dem geleakten Codex-Base-Instructions-Repository (asgeirtj/system_prompts_leaks auf GitHub).

Hintergrund: GPT-5.4 nutzt seit der Auslieferung als Codex-Engine zwanghaft die Wörter „goblins“ und „gremlins“ als Shorthand für „versteckte Komplexität“. Beispiele aus User-Reports auf Hacker News (Item #47319285): „this stuff turns into legal goblins fast“, „hiding exclusions like little goblins“, „But here's the important goblin“. Frequenz: nach mehreren Berichten „once every hour“ in produktiven Coding-Sessions. Chris Nicholson formulierte die Diagnose auf Substack: „5.2 constantly complained that things aren't about vibes; 5.4 constantly calls things gremlins and goblins in a chummy tone.“ Die Theorie der Hacker-News-Kommentatoren: möglicherweise ein Watermark-Versuch, der das Subtilitäts-Ziel überschossen hat — oder schlicht Trainings-Drift in Richtung „chummy tone“ aus den GPT-5-Personality-Updates.

OpenAIs Antwort ist instruktiv. Statt Fine-Tuning oder RLHF-Iteration — beides aufwendig, beides würde andere Modell-Eigenschaften touchieren — kam ein „duct-tape prompting“-Patch: eine Zeile in die base_instructions von Codex, mehrfach zur Verstärkung wiederholt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.“ Der Witz der Wired-Story ist die Brute-Force-Liste: Raccoons und Pigeons wurden offenbar prophylaktisch hinzugefügt, falls das Modell auf alternative Tier-Metaphern ausweichen sollte.

Der Vorfall illustriert ein systemisches Phänomen jenseits des Schmunzlers. Production-Coding-Agents — Codex, Claude Code, Cursor, Lovable, Replit — werden alle in einer ähnlichen Architektur deployed: Frontier-LLM plus mehrtausendzeiliger System-Prompt mit Verhaltensregeln, Sicherheitsklauseln und Persönlichkeits-Constraints. Anthropic verwendet bei Claude Code vergleichbare Mechanismen (siehe asgeirtj/system_prompts_leaks). Der Pliny-the-Liberator-Leak des ursprünglichen Codex-Prompts vom Februar 2026 hatte bereits über 4.000 Zeilen offenbart. Das gpt-5.1-codex-Issue #6765 dokumentierte ähnliche Quirks (Firebase-Halluzinationen). Tenor in Engineering-Communities: „It's a harness/environment problem, not a model problem.“

Für Tech-Entscheider, die Coding-Agents in produktive Engineering-Workflows einbetten, ergeben sich drei praktische Beobachtungen. Erstens: Modell-Quirks sind kein Edge-Case — sie sind erwartbare Begleiterscheinung von Trainings-Drift, RLHF-Anpassungen und Personality-Updates. Zweitens: Anbieter-System-Prompts sind nicht statisch — sie ändern sich wöchentlich, oft ohne Release-Notes. Wer Konsistenz erwartet, sollte versionierbare Anbieter-Konstellationen evaluieren. Drittens: Eigene Skill- und Prompt-Layer (à la Claude Skills, Codex Skills) gewinnen strategisch — sie geben Engineering-Teams die Möglichkeit, das Anbieter-Verhalten oben drauf zu konditionieren, ohne auf den nächsten Modell-Update zu warten.

Quellen

Reportage

Die KI-Bubble unter Stress-Test: Was OpenAIs Umsatz-Miss für die Lieferkette bedeutet

600 Milliarden Dollar Compute-Verpflichtungen, 60 bis 100 Milliarden gesamtes AI-Revenue, ein zirkuläres Finanzierungsgeflecht aus NVIDIA, OpenAI, CoreWeave und Oracle. Der WSJ-Bericht von gestern hat die Vertrauenskrise der KI-Lieferkette in den Mainstream gespült. Wir entwirren die Mechanik der Capex-Maschine, vergleichen mit der Telko-Bubble 2000 und destillieren konkrete Empfehlungen für Tech-Entscheider in SaaS-Unternehmen. Von Stefan Lange-Hegermann.

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

Logic

Spec-driven Agent-Backend-as-a-Service: man beschreibt per Spec den gewünschten Agenten, Logic spinnt Infrastruktur, Tests und Versionierung selbst auf.

Steve Krenzel (Ex-Twitter) und Jess Garms (CTO) launchen mit Founders' Co-op, Audacious und Ali Partovi's Neo-Backing. IFBench-Score von 83,3% — höchster auf der Artificial Analysis Leaderboard. Typed I/O, automatische API-Exposure, synthetische Test-Generation, immutable Versionierung. Setzt auf Spec-First-Workflow statt klassischer LLM-Orchestrierung.

Agent-Backend · 27. April 2026

Dirac

Open-Source-Coding-Agent mit aggressiver Token-Effizienz: hash-anchored Edits, AST-Manipulation und parallele Operations für 50–80 Prozent günstigere API-Calls.

Dirac Delta Labs (Max Trivedi) hat TerminalBench-2 mit 65,2 Prozent auf Gemini-3-flash-preview getoppt — schlägt Junie CLI (64,3) und die Google-Baseline (47,6). Show-HN-Drop am 27. April; Open-Source-Release mit kompletter Recipe für Multi-Step-Coding-Aufgaben. Bemerkenswert ist die Optimierung auf Context-Curation statt brute-force-Erweiterung.

Coding-Agent · 27. April 2026

Dex

AI Talent Agent für AI-Researchers, Software-Devs und ML-Engineers — kommuniziert per Voice/Text mit Kandidaten, surfact passende Roles, bereitet Interviews vor.

UK-Startup von Harry Uglow (CTO) und Paddy Lambros (CEO; ex-Atomico). 5,3 Mio. USD Seed (Notion Capital, a16z Speedrun, Concept Ventures, OpenAI Angels). 15.000 Engineers angemeldet, 50 Kunden — darunter Lovable, ElevenLabs, Synthesia, Granola, Fyxer. Spezialisierung auf Hard-to-Fill-Tech-Roles.

HR-Tech · 28. April 2026

TriFetch

Multilinguale Voice-Agents für Specialty Clinics — übernehmen Patient-Calls, Referral-Routing und Prior-Authorization-Workflows.

Varuni Sarwal und Rosemary He (PhD UCLA) bringen TriFetch nach 1,9 Mio. USD Pre-Seed (Nexus Venture Partners, Angels von Google/Hippocratic/Mercor/MIT) aus dem Stealth. Erste EMR-agnostische Automation-Layer — integriert in NextGen, eClinicalWorks und Athena. Kundennutzen: 50 Prozent Reduktion administrativer Klinikkosten.

Healthcare-AI · 27. April 2026

Manifest OS

AI-native Plattform für Anwaltskanzleien: End-to-End-Lösung für Client-Communication, Research, Document-Drafting und Billing — verbunden mit eigener Outcome-Pricing-Kanzlei.

Größte Series A in Legal-Tech-Geschichte: 60 Mio. USD bei 750-Mio.-Bewertung (Menlo Ventures + Kleiner Perkins). Founder Dan Mishin betreibt unter „Manifest Law“-Brand eigene Kanzleien — Hebel zur Migration von Billable Hours zu Outcome-Pricing. Über 100 Anwälte nutzen die Plattform bereits.

Legal-Tech · 28. April 2026

QuoIntelligence

AI-getriebene Cyber- und Geopolitical-Threat-Intelligence — kombiniert AI-Plattform „Mercury“ mit menschlichen Analysten und einem Conversational-AI-Analysten namens KARLA.

Frankfurter Startup, 7,3 Mio. EUR Series A (Elevator Ventures / Raiffeisen Bank, BMH, eCAPITAL). EU-souveräne Datenhaltung als USP. KARLA fungiert als Always-on Threat-Interface — beantwortet Fragen zu NIS2, DORA, Supply-Chain-Risiken in Plain Language.

Security · 27. April 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Tutorial

Nvidia Nemotron 3 Nano Omni - First Test and Impression

All About AI (222.000 Subs) · 14:09

Hands-on-Test des am 28. April released Nemotron 3 Nano Omni. Der Creator führt durch Bild-, Audio- und Video-Verarbeitung lokal auf einer einzelnen GPU, vergleicht die OCR-Performance mit Qwen3-Omni und prüft die Long-Context-Stärke an einem mehrhundertseitigen Dokument. Klare Empfehlung für Engineering-Teams, die Multimodal-Inferenz on-prem evaluieren.

Tutorial

Hermes Agent w/ ChatGPT 5.5 is literally magic

Alex Finn (193.000 Subs) · 17:17

Alex Finn kombiniert den selbst-improvenden Hermes Agent mit GPT-5.5 als Backend und zeigt einen End-to-End-Coding-Workflow inklusive Repo-Refactoring und Test-Generation. Praktischer Setup-Guide mit konkreten Konfigurations-Tipps. Wertvoll für Devs, die Multi-Modell-Stacks (OpenAI + Anthropic + lokale Modelle) hinter einem einzigen Agent-Frontend bündeln wollen.

Ausgabe vom 29. April 2026

OpenAI verfehlt Umsatzziele — und reißt Oracle, CoreWeave und SoftBank mit

„Star Trek statt Terminator“: Musk im Zeugenstand — Larry Page-Anekdote, 134 Mrd. Forderung und der Zilis-E-Mail-Konter

OpenAI auf AWS: Bedrock mit GPT-5.4, Codex und Managed Agents — 24 Stunden nach dem Microsoft-Bruch

Google springt für Anthropic ein: Pentagon erhält klassifizierten KI-Zugang — 950 Mitarbeiter protestieren

NVIDIA Nemotron 3 Nano Omni: 30B-Hybrid-MoE für Multimodal-Agenten — bei 9-facher Throughput-Rate

OpenAI patcht Codex per System-Prompt: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons“

Die KI-Bubble unter Stress-Test: Was OpenAIs Umsatz-Miss für die Lieferkette bedeutet

Tool-Radar

Aus der Werkstatt