Die Inferenz

Börse · Cerebras IPO

Cerebras an der Nasdaq: 5,55 Mrd. USD Erlös, +68 Prozent Schlusskurs, 95 Mrd. Marktkap. — der größte Tech-IPO seit Uber

14. Mai 2026

Der Wafer-Scale-Chip-Hersteller Cerebras Systems hat am Donnerstag sein Börsendebüt unter dem Ticker CBRS hingelegt und damit den größten US-Tech-IPO seit Uber 2019 abgeliefert: 5,55 Milliarden Dollar Bruttoerlös, 20-fach überzeichnete Bücher, ein Eröffnungssprung auf 350 Dollar (plus 89 Prozent), ein Intraday-Hoch bei 386 Dollar (plus 108 Prozent) und ein Schlusskurs von 311,07 Dollar (plus 68 Prozent). Die Marktkapitalisierung am ersten Handelstagsschluss: rund 95 Milliarden Dollar. Wie wir in unserer <a href="/editions/2026-05-05.html#art-2">Ausgabe vom 5. Mai</a> berichteten, lag die Preisspanne ursprünglich bei 115 bis 125 Dollar — nach Investorennachfrage wurde sie zweimal angehoben.

Hintergrund & Analyse

Die finalen IPO-Parameter: 30 Millionen Aktien zu einem Ausgabepreis von 185 US-Dollar, dazu eine Greenshoe-Option auf weitere 4,5 Millionen Aktien für die Konsortialführer. Die Aktie eröffnete auf der Nasdaq bei 350 Dollar, erreichte intraday 385 bis 386 Dollar und schloss bei 311,07 Dollar — ein Plus von 68 Prozent zum Ausgabepreis. CEO Andrew Feldman hält nach dem Tag eine Beteiligung im Wert von rund 1,9 Milliarden Dollar (Bloomberg nennt 3,2 Milliarden zum Hoch), CTO Sean Lie liegt bei etwa einer Milliarde. Lead Underwriter sind Morgan Stanley, Citigroup, Barclays und UBS; Bookrunner sind Mizuho und TD Cowen.

Cerebras ist damit das erste rein auf KI-Inferenz spezialisierte Unternehmen, das eine öffentliche Notierung erreicht — und das erste ernstzunehmende Pure-Play unter den Nvidia-Herausforderern. Die Wafer-Scale-Engine-3 (WSE-3), die im März 2024 mit TSMCs 5-nm-Prozess gestartet wurde, belegt mit 46.225 Quadratmillimeter Fläche einen kompletten 300-mm-Wafer: 4 Billionen Transistoren, 900.000 KI-Kerne, 44 Gigabyte On-Chip-SRAM und 21 Petabyte pro Sekunde interne Speicherbandbreite. Der Pitch: Inferenz auf einem einzigen Chip ist bei großen Modellen schneller und energieeffizienter als verteilte GPU-Cluster mit NVLink-Engpass.

Die Finanzdaten erklären die zweimalige Anhebung der Preisspanne. Cerebras verzeichnete 2025 einen Umsatz von 510 Millionen Dollar (plus 76 Prozent gegenüber 2024) und einen Net Income von 87,9 Millionen Dollar im Q4 — der erste profitable Quartalsabschluss überhaupt nach Verlusten von 485 Millionen im Vorjahr. Der Master Relationship Agreement mit OpenAI vom Januar 2026 verpflichtet OpenAI zur Abnahme von 750 Megawatt Inferenz-Compute bis 2028 mit Option auf zwei Gigawatt bis 2030; das Mindestvolumen liegt bei über 10 Milliarden Dollar. Im März 2026 folgte eine Disaggregation-Architektur mit AWS Bedrock, in der Trainium den Prefill und Cerebras den Decode-Schritt übernimmt. Weitere namhafte Inference-Kunden: Meta, Mistral AI, Perplexity, Notion, Cognition.

Die Risiken im S-1-Filing sind allerdings substanziell. 62 Prozent des 2025er-Umsatzes entfielen auf die Mohamed bin Zayed University of AI (MBZUAI) in den Vereinigten Arabischen Emiraten, weitere 24 Prozent auf G42 — zusammen 86 Prozent Kundenkonzentration auf eine einzige geopolitische Region. Die CFIUS-Prüfung von 2024, die den ursprünglichen IPO-Anlauf stoppte, ist zwar abgeschlossen, nachdem G42 seine Anteile in stimmrechtslose Aktien umwandelte. Aber das strukturelle Embargo-Risiko bleibt. Hinzu kommt die zirkuläre Deal-Architektur: OpenAI ist gleichzeitig Großkunde und (über Warrants) potenzieller Aktionär; Investoren wie Sam Altman, Greg Brockman, Ilya Sutskever und Adam D’Angelo halten persönliche Stakes. Wedbush-Analyst Bryson taxiert die Cluster-Bewertung als „squarely circular investment theme“.

Für SaaS-CTOs und CFOs ist das Signal eindeutig: Inferenz-Compute wird 2026 zur dominanten variablen Kostenposition in KI-nativen Produkten — und die Kapitalmärkte preisen das Wachstum dieser Kategorie auf 200-fachem Umsatzmultiple ein. Was das für die Inference-Ökonomie der Agentic-Ära bedeutet, untersuchen wir in der heutigen Reportage im Detail.

Quellen

Produkt · OpenAI

Codex zieht aufs Smartphone: ChatGPT-App wird zur Fernsteuerung für den Coding-Agent

14. Mai 2026

OpenAI hat seinen Coding-Agent Codex in einer Preview in die ChatGPT-Mobile-App eingebaut — verfügbar auf iOS, iPadOS und Android, in allen Tarifen inklusive Free. Wichtig: Das Smartphone schreibt keinen Code, es steuert Codex-Sessions, die auf einem gepairten Mac oder einem Remote-SSH-Host laufen. Entwicklerinnen können Aufgaben starten, Diffs reviewen und Approvals erteilen, während der eigentliche Agent auf der Workstation arbeitet. Begleitend ging Remote-SSH-Support generally available, ebenso die Hook-Mechanik für Secret-Scanning und Repo-spezifische Policies.

Hintergrund & Analyse

Die Architektur der neuen Codex-Mobile-Anbindung ist bewusst minimalistisch. Über einen QR-Code auf der Codex-Mac-App wird die ChatGPT-iOS/Android-App gepairt; ein von OpenAI betriebenes Secure-Relay-Layer hält den Session-State über alle Geräte synchron, ohne die Workstation öffentlich im Internet erreichbar zu machen. „Your files, credentials, permissions, and local setup stay on the machine where Codex is operating“, schreibt OpenAI im Launch-Post. Auf das Phone fließen ausschließlich Live-Updates: Screenshots, Terminal-Output, Diffs, Test-Ergebnisse und Approval-Anfragen.

Konkret lassen sich vom Smartphone aus neue Aufgaben starten, aktive Threads inspizieren, zwischen parallelen Sessions wechseln, Modelle umschalten und Kommandos genehmigen oder ablehnen. Voraussetzung sind die aktuelle Codex-für-Mac-App (Windows-Support „coming soon“) und die jüngste ChatGPT-Mobile-Version. EU- oder UK-Einschränkungen wurden nicht kommuniziert — der Rollout läuft „in all supported regions“. Begleitend wurde Remote SSH für Codex generally available: Der Agent klinkt sich direkt in genehmigte Remote-Dev-Umgebungen ein, inklusive Firmen-Dependencies, Credentials und Compute-Setups. Die Desktop-App erkennt SSH-Hosts automatisch aus der lokalen SSH-Konfiguration. Hooks (Secret-Scanning, Validatoren, Logging, Memory-Erzeugung) sind ebenfalls GA, programmatische Access-Tokens bleiben Business/Enterprise vorbehalten.

Im Kontext der Konkurrenz schließt OpenAI damit eine spürbare Lücke. Anthropic hatte mit Claude Cowork und Managed Agents bereits im April einen gehosteten Agenten-Dienst mit mobiler Steuerung und langen Autonomie-Sessions etabliert; Claude Code unterstützte mobile Remote-Control bereits seit Herbst 2025. Sam Altman vermeldete Anfang April drei Millionen wöchentliche Codex-Nutzer — ein Wachstum von rund 600.000 im Januar auf drei Millionen in 90 Tagen. OpenAI subventioniert die Adoption aggressiv mit zwei Monaten kostenloser Nutzung für Firmen, die zu Codex wechseln (Reaktion auf Anthropics Preiserhöhung im April).

Strategisch ist die Mobile-Anbindung Teil von OpenAIs „Super-App“-Vision, in der ChatGPT, Codex und der Atlas-Browser zu einer einheitlichen Desktop- und Mobile-Erfahrung verschmelzen sollen. Das Smartphone wird zum Approval-Interface für asynchrone Agent-Tasks — Codex läuft minutenlange Refactorings oder Bug-Investigationen auf der Workstation und ruft das Phone wie ein Pager an, wenn eine Entscheidung gebraucht wird. Axios-Kommentar warnt allerdings, dass Approvals auf kleinen Bildschirmen bei Multi-Tasking fehleranfällig sein können — ein realer Risikofaktor, wenn Codex Production-Code committet.

Praktische Konsequenz für SaaS-Engineering-Teams: Die Trennung von „wo arbeitet der Agent“ und „wer reviewt seine Arbeit“ wird zur architektonischen Frage. Compliance-Teams sollten klären, ob das Approval-Routing über Smartphone-Apps zur internen Change-Management-Policy passt; Engineering-Leads sollten den Codex-Hook-Mechanismus früh als zentrales Audit-Tooling einführen, bevor die ersten Production-Incidents auf laxen Approvals beruhen.

Quellen

Hardware · NVIDIA

Vera Rubin gegen das &bdquo;Scale-Up-Problem“: Nvidia erklärt, warum 288 GB HBM4 und NVLink 6 die Agentic-Ära retten sollen

14. Mai 2026

Am gleichen Tag wie das Cerebras-Debüt veröffentlichte Nvidia einen technischen Vertiefungs-Blog zur Vera-Rubin-Plattform, die im März auf der GTC 2026 angekündigt worden war. Die These: Agentic Inference verändert die Laufzeit-Dynamik fundamental — nicht-deterministische Trajektorien, Multi-Step-Tool-Use und Millionen-Token-Kontexte stressen Compute, GPU-zu-GPU-Kommunikation, Interconnect-Latenz, Memory-Bandbreite und Power-Delivery gleichzeitig. Vera Rubin NVL72 mit 288 GB HBM4 pro GPU und NVLink 6 mit 3,6 TB/s soll diese Engpässe auflösen — und die zweite Hälfte 2026 zur Auslieferungsphase machen.

Hintergrund & Analyse

Vera Rubin ist die Nachfolge-Architektur nach Blackwell: GB200/GB300 weichen Vera-Rubin-Racks in den Konfigurationen NVL72 (72 GPUs), NVL144/NVL144 CPX und der für H2 2027 geplanten NVL576 (Rubin Ultra) ab. Die Vera-CPU besitzt 88 ARM-„Olympus“-Cores mit 176 Threads und ist über NVLink-C2C mit 1,8 TB/s direkt an die Rubin-GPU gekoppelt. Die Rubin-GPU selbst enthält 336 Milliarden Transistoren auf zwei Reticle-großen Dies (1,6-mal Blackwell) und liefert 50 PFLOPS NVFP4. Das eigentliche Argument liegt jedoch in der Speicherarchitektur: 288 GB HBM4 pro GPU mit 2,8-mal höherer Bandbreite als Blackwell, plus NVLink 6 mit 3,6 TB/s bidirektional zwischen allen 72 GPUs im Rack. Auf Inferenz-Workloads ergibt das laut Nvidia einen fünffachen Durchsatz.

Das adressierte Problem ist real und unterschätzt. Reasoning-Modelle wie GPT-5.5, Claude Opus 4.7, DeepSeek R1 und Mythos generieren 10- bis 100-mal mehr Token pro Query als klassische Chat-Modelle. Lange Kontextfenster bedeuten gigantische KV-Caches (Key-Value-Caches), die bei jedem generierten Token sequenziell durchgelesen werden müssen. Damit ist Decode speicherbandbreitenlimitiert, nicht rechenlimitiert — der Chip wartet öfter auf Daten als er rechnet. Nvidia adressiert das mit zwei Hebeln: HBM4 hebt die Bandbreite, NVLink 6 macht das Rack zu einer einzigen logischen Speicherdomäne („Scale-up“, nicht Scale-out).

Die Partnerschaftsbreite ist beachtlich. Bestätigt sind als Vera-Rubin-Kunden die AI-Labs Anthropic, OpenAI, Meta, Mistral AI, Black Forest Labs, Cohere, Cursor, Harvey, OpenEvidence, Perplexity, Runway, Thinking Machines Lab und xAI; auf Cloud-Seite AWS, Google Cloud, Azure, Oracle, CoreWeave und Nebius (US/Europa); auf OEM-Seite Cisco, Dell, HPE und Lenovo. Erste Auslieferungen sind für H2 2026 angesetzt; Rubin Ultra NVL576 folgt H2 2027 mit Racks bis 600 Kilowatt Leistungsaufnahme — Schneider Electric ist als Power- und Kühlungspartner mit einer gemeinsamen Referenz-Architektur an Bord.

Die Konkurrenz bleibt ernst zu nehmen. Googles TPU v7 „Ironwood“ hat seit November 2025 GA-Status mit 192 GB HBM und 7,37 TB/s Memory-Bandbreite; SemiAnalysis taxiert die Cluster-TCO laut eigener Analyse rund 44 Prozent günstiger als GB200-Konfigurationen. AWS Trainium 3 ist mit 2,52 PFLOPS FP8 pro Chip und einer NVIDIA-ähnlichen UltraServer-Topologie gerade gestartet. Microsofts Maia 200 auf TSMC 3 nm liefert über 10 PFLOPS FP4. Die Custom-ASIC-Welle der Hyperscaler wächst laut Analystenschätzungen mit 44,6 Prozent CAGR — was Nvidia mit Rubin kontern muss.

Für Tech-Lead-Entscheiderinnen ist die Botschaft pragmatisch: Wer 2026 Frontier-Modell-Inferenz im großen Maßstab fahren will, wird zwischen Vera-Rubin-Racks (Premium-Performance, Premium-Preis), Hyperscaler-eigenen ASICs (lock-in-affin, aber günstiger) und spezialisierten Beschleunigern wie Cerebras (Inference-Disaggregation, bestimmte Workload-Profile) balancieren müssen. Die Roadmap-Aussage von Jensen Huang — Nvidia peilt mit Rubin eine Jahresumsatzbasis von einer Billion Dollar bis 2027 an — ist genauso ehrgeizig wie umstritten, aber sie definiert das Investitionsklima.

Quellen

Arbeitsmarkt · Cisco

Cisco streicht 4.000 Stellen — und meldet 15,8 Mrd. Rekordumsatz im selben Atemzug

14. Mai 2026

Cisco-CEO Chuck Robbins kündigt knapp 4.000 Entlassungen an (weniger als fünf Prozent der 86.000 Mitarbeitenden) — am gleichen Tag, an dem Cisco mit 15,8 Milliarden Dollar Quartalsumsatz (plus 12 Prozent) ein All-Time-High meldet. CFO Mark Patterson stellt klar: &bdquo;Das ist keine Kostensenkungs-Restrukturierung. Es geht darum, Ressourcen um Silizium, Optik, Security und KI neu zu sortieren.“ Die Aktie reagierte nachbörslich mit rund plus 20 Prozent — der Markt liest die Doppelmeldung als Bestätigung des AI-Pivots.

Hintergrund & Analyse

Die harten Zahlen aus Q3 FY2026 (Quartal endete am 25. April): Cisco meldete einen Rekordumsatz von 15,8 Milliarden Dollar, plus 12 Prozent gegenüber Vorjahr und über den Konsens-Schätzungen von 15,56 Milliarden. Der GAAP-Nettogewinn lag bei 3,4 Milliarden Dollar, das Non-GAAP-EPS bei 1,06 Dollar (Konsens 1,03 bis 1,04). Die AI-Order-Pipeline ist die eigentliche Story: 1,9 Milliarden Dollar AI-Infrastruktur-Orders allein in Q3, kumulativ 5,3 Milliarden Dollar im Geschäftsjahr — und Cisco hat seine FY26-AI-Order-Prognose von 5 auf 9 Milliarden Dollar fast verdoppelt. Fünf neue Hyperscaler-Design-Wins, davon die ersten zwei für den Silicon-One-P200-Chip in „Scale-Across“-Topologien zwischen KI-Clustern.

Robbins formulierte die strategische Linie in seinem Memo „Our Path Forward“ deutlich: „This means making hard decisions — about where we invest, how we’re organized, and how our cost structure reflects the opportunity in front of us.“ Die Restrukturierungskosten werden mit bis zu einer Milliarde Dollar pre-tax beziffert: ungefähr 450 Millionen im laufenden Quartal, der Rest verteilt auf FY2027. Betroffene Mitarbeitende erhalten anteiligen FY26-Bonus, ein Jahr kostenfreies Cisco-U-Training in AI/Security/Networking und Placement-Service mit laut Unternehmensangaben 75 Prozent Erfolgsquote. CFO Patterson präzisierte gegenüber Benzinga: „This was really not a savings-driven restructure — really realigning resources around silicon, optics, security and AI.“

Cisco unter Robbins ist seit der 28-Milliarden-Splunk-Übernahme 2024 in einem methodischen Pivot weg vom klassischen Netzwerk-Ausrüster zum AI-Infrastruktur-Player für Hyperscaler. Silicon One, Ciscos eigene Chip-Familie, ist die Ethernet-Alternative zu InfiniBand und positioniert Cisco gegen Nvidia und Broadcom im Backbone der KI-Rechenzentren. Bereits in Q2 wurde der einmillionste Silicon-One-Chip ausgeliefert; etwa die Hälfte der AI-Infrastruktur-Umsätze stammt heute aus Silicon-One-Systemen. Die Mai-Welle ist allerdings die dritte Restrukturierung in 27 Monaten mit jeweils rund einer Milliarde Dollar Kosten: 4.000 Stellen im Februar 2024, 5.600 im September 2024, jetzt erneut rund 4.000. Insgesamt hat Cisco damit binnen zwei Jahren etwa 17 Prozent seiner Belegschaft abgebaut.

Die Cisco-Doppelmeldung steht im Kontext eines klaren Sektor-Musters. Meta plant ab 20. Mai rund 8.000 Entlassungen (zehn Prozent der Belegschaft), explizit verknüpft mit 145 Milliarden Dollar AI-Capex. Microsoft hat seit Q1 2026 mehrere Wellen mit zusammen über 20.000 Stellen abgebaut. Der Challenger-Report März 2026 nennt KI erstmals als Begründung für 25 Prozent aller US-Stellenstreichungen — 15.341 von 60.620 — und damit als meistgenannten Einzelgrund in der Challenger-Historie. Die kumulierten Big-Four-Capex-Zusagen für 2026 liegen bei 725 Milliarden Dollar (plus 77 Prozent gegenüber Vorjahr).

Die Symbolik wirkt eindeutig, ist aber differenzierter zu lesen. Lightreading-Analyst Iain Morris warnt davor, die Cisco-Cuts pauschal als „AI-ersetzt-Mitarbeiter“-Fall zu verbuchen: Es sei primär ein Portfolio-Realignment von Legacy-Networking zu Silizium, Optik und Security. Für SaaS-Personalverantwortliche heißt das: Die Layoff-Welle ist nicht der Trigger einer Massenarbeitslosigkeit durch KI, sondern eine massive Capex/Personal-Umschichtung — Geld fließt vom Personalbudget in die Compute-Capex. Für Engineering-Manager wiederum bestätigt sich, dass spezialisierte AI-Infrastruktur- und Silicon-Skills 2026 die einzige solide Karrierebasis im Netzwerk-Sektor sind.

Quellen

Vendor-Strategie · Microsoft

Microsoft kündigt die meisten internen Claude-Code-Lizenzen — und schickt seine Engineers zurück zu Copilot CLI

14. Mai 2026

Tom Warren berichtet in seinem Verge-Notepad, dass Microsoft in der Division Experiences + Devices die meisten der im Dezember 2025 verteilten Claude-Code-Lizenzen kündigt — betroffen sind Tausende Mitarbeitende in den Teams Windows, Microsoft 365, Outlook, Teams und Surface. Bis Ende Juni 2026 sollen die Engineers vollständig auf GitHub Copilot CLI umgestellt sein. Die offizielle Begründung: Standardisierung. Die unter der Oberfläche: Wer den Anthropic-Deal über 5 Milliarden Dollar finanziert und 30 Milliarden Azure-Compute zurückkauft, kann seine eigenen Engineers schlecht mit dem Konkurrenz-Tool arbeiten lassen.

Hintergrund & Analyse

Microsoft hatte im Dezember 2025 Claude Code an Tausende interne Entwicklerinnen ausgerollt — auffallend breit, inklusive Produktmanagern, Designerinnen und Mitarbeitenden mit minimaler Coding-Erfahrung. In den darauffolgenden sechs Monaten gewann Claude Code intern erheblich an Beliebtheit; Hacker-News-Threads zur Adoption beschrieben den Wechsel von Copilot zu Claude Code als „überraschend organisch“. Das ändert sich jetzt: Bis zum 30. Juni 2026 — Ende des Microsoft-Geschäftsjahrs — sollen die Engineers auf GitHub Copilot CLI migrieren. Microsofts offizieller Sprecher-Kommentar zur ursprünglichen Adoption fasste die Position diplomatisch: „Companies regularly test and trial competing products to gain a better understanding of the market landscape.“

Die ironische Pointe: Engineers können Claude-Modelle weiterhin nutzen — aber durch Microsofts CLI-Wrapper. GitHub Copilot CLI ist seit Februar 2026 GA und unterstützt Claude Opus 4.6, Sonnet 4.6 und Haiku 4.5 ebenso wie GPT-5.3-Codex und Gemini 3 Pro. Default-Modell ist Sonnet 4.5. Aus Microsoft-Sicht entscheidend: Telemetrie, Abrechnung und Workflow-Integration laufen über GitHub, nicht über Anthropic-direkt. Inoffizielle Begründungen aus den Verge- und Information-Quellen: finanzielle Erwägungen (Lizenzgebühren an Anthropic), engere Integration in den eigenen Stack, Vereinheitlichung von Procurement und Support — und vor allem der Wunsch, die interne Nutzung mit der externen Copilot-First-Erzählung in Einklang zu bringen.

Der Schritt erfolgt nur sechs Monate nach der historischen November-2025-Allianz: Microsoft, Nvidia und Anthropic verkündeten eine strategische Partnerschaft, in der Microsoft bis zu 5 Milliarden Dollar und Nvidia bis zu 10 Milliarden in Anthropic investiert. Anthropic verpflichtete sich seinerseits zu 30 Milliarden Dollar Azure-Compute. Anthropic-Modelle (Sonnet 4.5, Opus 4.1, Haiku 4.5) sind seither in M365 Copilot und Microsoft Foundry verfügbar; im März 2026 startete Copilot Cowork, dessen Engine auf Anthropics Claude Cowork basiert. Microsoft konnte also Claude-als-Modell weiterhin tief in den eigenen Produkten verbauen — verbietet aber das Konkurrenz-Tool im internen Engineering.

Die Reaktion aus dem Engineering-Lager wirkt verhalten, aber unmissverständlich. Hacker News tonalisiert das „Everything must have Copilot“-Mandat als Top-Down-Entscheidung, die ohne konkretes Engineer-Problem getroffen wurde — und damit der eigenen AI-Marke eher schade. Where’s Your Ed At (Ed Zitron) verweist parallel auf Microsofts Schritt zu Token-basiertem Billing in Copilot mit strengeren Rate-Limits: Ein konsistentes Muster, in dem Microsoft Drittanbieter-Tools schrittweise in eine optionale Rolle zurückschiebt, während Copilot First-Party-Status erhält.

Für SaaS-CTOs ist die Lehre praktisch: Wer heute Claude Code als zentrales Engineering-Tool einführt, sollte einen Exit-Pfad mitdenken — gerade weil selbst Microsoft als Anthropic-Investor das Tool intern einkassiert. Modell-Wahl und Tool-Wahl entkoppeln, Inferenz-Layer abstrahieren, MCP-Server statt proprietärer Plugin-Architekturen bevorzugen. Die strategische Frage bleibt: Wenn der größte Anthropic-Investor seinen eigenen Engineers das Original-Tool wegnimmt — wie lange bleibt es für andere Enterprises strategische Investition wert?

Quellen

Entwicklung · Anthropic & Bun

Eine Million Zeilen Rust in sechs Tagen: Claude portiert die komplette Bun-Codebasis von Zig

14. Mai 2026

Bun-Gründer Jarred Sumner hat eine Portierung der gesamten Bun-JavaScript-Runtime von Zig nach Rust gemerged — getrieben durch Claude-Agenten, geschrieben in unter einer Woche. Der Pull Request umfasst 2.188 Dateien, mehr als eine Million Zeilen Rust und 6.755 Commits. Die Rust-Version ist 3 bis 8 Megabyte schlanker als die Zig-Variante und in Benchmarks &bdquo;neutral bis schneller“. Die Kritik: Über 13.000 unsafe-Blöcke entwerten Rusts zentrales Sicherheitsversprechen. Sumner verweigert konkrete Token-Kostenangaben.

Hintergrund & Analyse

Der PR oven-sh/bun#30412 wurde am 14. Mai in den main-Branch gemerged. Methodisch lief die Portierung in vier Phasen über eine 576-zeilige PORTING.md-Spezifikation, die Sumner als „Rosetta Stone“ bezeichnete: alle Zig-Typen, Idiome und Architekturmuster auf Rust-Äquivalente gemappt. Etwa 960.000 Zeilen Zig wurden entfernt, gut eine Million Zeilen Rust hinzugefügt; Sumner selbst sagt, das Team habe seit Monaten keinen Code mehr selbst getippt: „This is already the status quo; we haven’t been typing code ourselves for many months now.“ Letzte stabile Zig-Version ist Bun 1.3.14. Production-ready ist die Rust-Variante laut heise noch nicht; mehrere offene Issues stehen aus, Nutzern wird empfohlen, vorerst bei 1.3.14 zu bleiben.

Bun ist eine in 2021 gestartete JavaScript-Runtime mit eingebautem Bundler, Test-Runner und Package-Manager. Bisher in Zig geschrieben, war Bun das Aushängeschild für Zigs Production-Tauglichkeit. Anthropic akquirierte die Bun-Mutterfirma Oven im Dezember 2025 — der Sprung von Zig nach Rust ist damit auch ein politisches Statement: Die Zig-Community hatte Ende April 2026 LLM-generierte Beiträge offiziell verboten („No-AI-Policy“ gegen halluzinatorische PRs), Bun lief seither auf einem eigenen Zig-Fork und konnte AI-Änderungen nicht mehr upstreamen. Sumners Begründung für Rust: Memory Safety durch Ownership-Modell, größerer Talent-Pool, reiferes Ökosystem. Architekturentscheidungen — globale State-Management, JavaScriptCore-Anbindung — blieben unangetastet; die Portierung ist eine 1:1-Übersetzung, kein Redesign.

Die Kontroverse dreht sich um die 13.000 unsafe-Blöcke in der Rust-Version (nach erstem Cleanup auf rund 10.000 reduziert). Zum Vergleich: Astral’s uv hat bei ähnlicher Codebase-Größe nur 73 unsafe-Blöcke — Bun liegt damit um den Faktor 180 darüber. Die strukturellen Gründe sind nachvollziehbar (FFI zu JavaScriptCore plus die aus Zig übernommenen globalen mutable States), die Konsequenz aber ernst: Unsafe-Code kann der Rust-Compiler nicht verifizieren — genau das, was Rust ausmacht. Community-Reaktionen reichen von „vibecoded disaster“ (Reddit, HN, YouTube-Channel Theo) bis zu „mechanische 1:1-Übersetzung ohne idiomatisches Re-Design“. Das Resultat: Rust-Syntax mit Zig-Semantik.

Die fehlende Transparenz bei Kosten und Modell-Version ist der Hauptkritikpunkt für Reproduzierbarkeit. Sumner verweigerte gegenüber heise und The Register konkrete Token- oder USD-Angaben. Genutzt wurden „claude[bot]“-Reviewer im PR und Claude Code mit aktuellen 4.x-Modellen — welche genau, bleibt offen. Auch der gesellschaftliche Aspekt „AI writes, AI reviews, AI approves“ hat in der Bun-Community wenig Begeisterung ausgelöst.

Strategisch bleibt der Bun-Bun-Port die erste öffentlich dokumentierte Million-Lines-Cross-Language-Portierung durch AI-Agenten. Für Tech-Leads, die ähnliche Migrationen erwägen — Legacy-Java, COBOL nach Java, C++ nach Rust — sendet das ein doppeltes Signal: Erstens, mechanische 1:1-Ports großer Codebases sind in Tagen statt Jahren möglich, wenn man eine klare Spec hat. Zweitens, idiomatisches Re-Design ist nicht Teil des Outputs. Wer also den Sprachwechsel als Modernisierungs-Hebel nutzen will (z.B. async-Pattern, neue Ownership-Modelle), muss diese Architektur-Entscheidungen weiterhin selbst treffen — der Agent übersetzt, redesigned aber nicht.

Quellen

Recht · OpenAI vs. Apple

OpenAI bereitet Klage gegen Apple vor — die Siri-Partnerschaft zerbricht im Streit über Visibilität und Vertrauen

14. Mai 2026

Bloomberg-Reporter Mark Gurman berichtet, dass OpenAI eine externe Anwaltskanzlei mit der Prüfung rechtlicher Schritte gegen Apple beauftragt hat — voraussichtlich als Breach-of-Contract-Schreiben, nicht als sofortige Klage. Hintergrund: ChatGPT in iOS hat laut OpenAI-Insidern &bdquo;nicht ansatzweise“ die erwarteten Milliarden-Abo-Einnahmen gebracht. Vorwurf: Apple habe die Integration &bdquo;vergraben“. Die Eskalation kommt wenige Wochen vor der WWDC (8. Juni), auf der Apple voraussichtlich die Multi-Provider-Strategie mit Gemini und Claude offiziell verkündet — und ChatGPT seinen Default-Status verliert.

Hintergrund & Analyse

OpenAIs Vorwürfe sind detailliert. ChatGPT-Antworten in Siri zeigen weniger Informationen als die Standalone-App; Nutzer müssen aktiv „ChatGPT“ sagen, um die Integration zu triggern; das Feature ist tief im Settings-Menü versteckt; weitere Apple-Apps haben die ursprünglich versprochenen ChatGPT-Touchpoints nie bekommen. Eine OpenAI-Quelle gegenüber Bloomberg: „We have done everything from a product perspective. They have not, and worse, they haven’t even made an honest effort.“ Erwartet hatte OpenAI laut Bericht mehrere Milliarden Dollar Abo-Einnahmen pro Jahr — Apple soll den Deal intern mit der Google-Search-Partnerschaft verglichen haben. Realität: „Hasn’t come close to happening.“

Apples Beschwerden gegen OpenAI sind ebenfalls dokumentiert und seit über einem Jahr schwelend. Erstens: Zweifel an OpenAIs Datenschutz-Standards. Zweitens: Verärgerung über das von Ex-Apple-Designchef Jony Ive bei OpenAI geleitete Consumer-AI-Hardware-Projekt — aus Apples Sicht ein direkter Frontalangriff im eigenen Markt. Drittens: Aggressives Abwerben von Apple-Engineers, Berichte sprechen von über 40 Wechseln. Ein OpenAI-Insider zitiert Apples Bringschuld bei Vertragsabschluss: „They basically said, ‘OpenAI needs to take a leap of faith and trust us.’ It didn’t work out well.“

Der Kontext macht den juristischen Schritt verständlich, auch wenn er paradox wirkt — OpenAI klagt seinen größten Distributionspartner mit 2,3 Milliarden aktiven Apple-Geräten. Aber die Verhandlungsposition ist im Wandel: Apple hat im Januar 2026 einen Multi-Jahres-Deal mit Google Gemini als Backend für die neue konversationelle Siri abgeschlossen. iOS 27 wird die Apple-Intelligence-Schnittstelle für Drittanbieter öffnen — ChatGPT, Gemini und Anthropic Claude werden als wählbare Defaults erwartet. Die offizielle Ankündigung dürfte auf der WWDC am 8. Juni 2026 erfolgen. Damit endet ChatGPTs Default-Privileg in iOS 18.

Antitrust-Implikationen werden im juristischen Diskurs bereits diskutiert. The Antitrust Attorney Blog zieht eine Parallele nicht zum Epic-App-Store-Verfahren, sondern zu U.S. v. Microsoft aus den 1990ern: Apple absorbiere KI-Anbieter als unsichtbares Backend, behalte aber Kontrolle über Default Placement, UI-Sichtbarkeit und Invocation-Mechanik — auch dann, wenn andere Modelle nominell verfügbar sind. Es ist nicht der App-Store-Streit, sondern ein Browser-Hersteller-Streit im Kleinformat. OpenAI-Insider bestreiten allerdings, dass der Apple-Gemini-Deal der Auslöser sei: Die Partnerschaft war von Anfang an explizit nicht-exklusiv.

Für Strategen in SaaS-Unternehmen mit Plattform-Abhängigkeiten ist die Lehre konkret: Wer auf eine einzige Distributions-Plattform setzt, ohne über die nächste Stufe der UI-Kontrolle zu verhandeln, verliert die Marge nach unten und die Sichtbarkeit nach oben. Default-Position und Discovery sind 2026 wertvoller als bloße Verfügbarkeit. Apple hat das im App Store seit Jahren demonstriert; OpenAI lernt es jetzt in Echtzeit. Die rechtlichen Schritte werden voraussichtlich erst nach Abschluss des laufenden Musk-vs-OpenAI-Prozesses (Liability bis 21. Mai) eingeleitet — Timing zur WWDC nicht ausgeschlossen.

Quellen

Reportage

Cerebras' Börsendebüt und die Inference-Ökonomie der Agentic-Ära

Der größte US-Tech-IPO seit Uber 2019 — und ein präzises Signal, wie sich der Chip-Markt umstellt. Warum Inferenz inzwischen über zwei Drittel des AI-Compute-Budgets ausmacht, warum Cerebras seine Wafer-Scale-Strategie zur Nvidia-Alternative formt, warum die Konkurrenz aus Hyperscaler-eigenen ASICs ernst zu nehmen ist — und was das für SaaS-CTOs zwischen Tokenmaxxing, Modell-agnostischen Inferenz-Layern und Stromkosten konkret bedeutet. Von Stefan Lange-Hegermann.

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

CraftBot

Self-hosted, proaktiver KI-Assistent, der lokal auf der eigenen Maschine lebt und 24/7 Aufgaben autonom plant und ausführt.

Das neue Living-UI-System erlaubt dem Agenten, eigene Dashboards und Mini-Apps in sich selbst zu bauen, weiterzuentwickeln und live damit zu interagieren — Software, die mit den Bedürfnissen mitwächst statt einmalig fertig zu sein. Docker-deployable, Open Source auf GitHub.

Dev Tools / Agent · 13. Mai 2026

Raindrop Workshop

Erster lokaler Open-Source-Debugger für KI-Agenten — streamt Token, Tool-Calls und Entscheidungen live in eine Browser-UI.

Per One-Line-Install mit MCP-Anbindung schreibt Claude Code automatisch Evals gegen die eigene Codebase, sieht Fehlschläge, fixt den Code und wiederholt den Lauf — ein Self-Healing Agent Loop. Vollständig lokal und kostenlos.

Dev Tools / Observability · 14. Mai 2026

Spellar 3.0

KI-Meeting-Companion mit Cross-Meeting-Memory: tritt Calls bei, transkribiert alles und baut einen persistenten Kontext über alle Meetings hinweg auf.

Statt einzelne Meetings nur zusammenzufassen, zieht Spellar 3.0 Kontext aus Calls, die Wochen oder Monate zurückliegen, automatisch ins aktuelle Gespräch. 100+ Sprachen, native Integration in Notion, Google Docs und Jira. Product-Hunt #1 am 14. Mai.

Produktivität · 14. Mai 2026

Asteroid

Builder für Computer-Use-KI-Agenten in Browser, Linux und Windows — auch non-technische Nutzerinnen bauen automatisierte Workflows in Minuten.

Der Meta-Agent Astro schreibt während des Builds Skripte mit, damit Wiederholungsläufe schneller und billiger werden. Im vergangenen Monat 150.000+ Executions auf EHR-Systemen, Insurance-Portalen und Citrix-Umgebungen — HIPAA- und SOC-II-zertifiziert. Y Combinator W25.

Automation / Computer Use · 14. Mai 2026

knooth

Screen-Recorder für macOS mit KI-Editing: Timeline-basiert, mit Auto-Captions, Cursor-Auto-Zoom, Filler-Word-Removal und Audio-Cleanup.

Anders als Cloud-Tools wie Loom oder Tella läuft alles vollständig lokal auf dem Mac, ohne Uploads. Native Timeline mit Video-, Audio-, Text-, Image- und Shape-Layern plus iPhone/iPad-Recording direkt vom Mac aus.

Kreativ / Screen Recording · 12. Mai 2026

Frontdesk AI

Eine Art KI-COO für SMBs — ersetzt Website, CRM, Chatbot, Lead-Forms und Receptionist mit einer einzigen KI-nativen Plattform.

Statt fünf Tools (HubSpot, GoHighLevel, Agentur-Bots) zu verknüpfen, liefert Frontdesk eine 24/7-Inbound/Outbound-KI-Rezeption, die Termine bucht und Leads konvertiert. Laut Anbieter laufen bereits 10.000+ Unternehmen auf der Plattform.

Business / SMB · 13. Mai 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Tutorial

Codex for Everyday Work: AI Agents Beyond Coding

OpenAI (1,95 Mio. Subs) · 43:03

OpenAIs eigenes Werkstatt-Video zur Mobile-Erweiterung von Codex (siehe Artikel 2): Wie der Codex-Agent jenseits reiner Coding-Aufgaben für tägliche Arbeitsabläufe — Daten-Analysen, Projektmanagement, Recherche — eingesetzt wird. Hands-on-Demos zu Memory, Plugins und Browser-Integration. Direkter Einblick vom Hersteller, wie sich Codex von einem Coding-Tool zur Allzweck-Agenten-Plattform entwickelt.

Tutorial

RAG is Dead. Again. (Claude Agent SDK + Memory)

Prompt Engineering (241.000 Subs) · 12:40

Architektur-fokussierter Deep-Dive zum neuen Memory-Tooling im Claude Agent SDK. Erklärt, warum klassisches RAG für viele Agent-Use-Cases obsolet wird, wenn man Anthropics native Memory-Primitives nutzt — mit konkreten Code-Patterns für persistente Agent-Memory. Praktische Anleitung für Engineers, die produktive Agents mit Langzeitgedächtnis bauen wollen.

Ausgabe vom 15. Mai 2026

Cerebras an der Nasdaq: 5,55 Mrd. USD Erlös, +68 Prozent Schlusskurs, 95 Mrd. Marktkap. — der größte Tech-IPO seit Uber

Codex zieht aufs Smartphone: ChatGPT-App wird zur Fernsteuerung für den Coding-Agent

Vera Rubin gegen das &bdquo;Scale-Up-Problem&ldquo;: Nvidia erklärt, warum 288 GB HBM4 und NVLink 6 die Agentic-Ära retten sollen

Cisco streicht 4.000 Stellen — und meldet 15,8 Mrd. Rekordumsatz im selben Atemzug

Microsoft kündigt die meisten internen Claude-Code-Lizenzen — und schickt seine Engineers zurück zu Copilot CLI

Eine Million Zeilen Rust in sechs Tagen: Claude portiert die komplette Bun-Codebasis von Zig

OpenAI bereitet Klage gegen Apple vor — die Siri-Partnerschaft zerbricht im Streit über Visibilität und Vertrauen

Cerebras' Börsendebüt und die Inference-Ökonomie der Agentic-Ära

Tool-Radar

Aus der Werkstatt

Vera Rubin gegen das &bdquo;Scale-Up-Problem“: Nvidia erklärt, warum 288 GB HBM4 und NVLink 6 die Agentic-Ära retten sollen