Die Zahlen sehen auf den ersten Blick nach Gesundheit aus. Cerebras Systems, der einzige verbliebene Pure-Play-Nvidia-Herausforderer mit öffentlich einsehbaren Finanzen, reichte am 17. April 2026 ein S-1-Dokument bei der SEC ein: 510 Millionen Dollar Umsatz 2025 (plus 76 Prozent), erstmalig 87,9 Millionen Dollar Nettogewinn, Ticker CBRS an der Nasdaq, Bewertung 22 bis 25 Milliarden. Zum Vergleich: 2024 hatte das Haus noch 485 Millionen Verlust geschrieben. Ein zweijahriger Turnaround-Erfolg, und zugleich der zweite IPO-Versuch — der erste 2024 war an einer CFIUS-Prüfung zum Minderheitsaktionär G42 aus den VAE gescheitert. Alles gut also? Nicht ganz.
In derselben S-1-Datei steht, dass 62 Prozent des Umsatzes 2025 aus einer einzigen Kundenbeziehung stammten: der Mohamed bin Zayed University of Artificial Intelligence. G42 machte weitere 24 Prozent aus. Zusammen: 86 Prozent aus den Vereinigten Arabischen Emiraten. Auf der anderen Seite der Welt, fünf Monate zuvor, hatte Nvidia zu Weihnachten 2025 still angekündigt, das Konkurrenz-Startup Groq für rund 20 Milliarden Dollar zu übernehmen — ein Deal, den die US-Senatoren Warren, Blumenthal und Wyden inzwischen als „reverse acqui-hire“ angreifen und den DOJ und FTC prüfen sollen. Beide Meldungen zusammen beschreiben einen Markt in der Endphase seiner ersten Konsolidierung.
Nvidias Position 2026: kein Märchen vom Schrumpfen
Um die Gegner zu verstehen, muss man zuerst den Marktführer verstehen. Nvidia meldete für das Geschaftsquartal Q3 FY2026 (Ende 26. Oktober 2025) einen Umsatz von 57 Milliarden Dollar — plus 62 Prozent gegenüber dem Vorjahr — bei einer GAAP-Bruttomarge von 73,4 Prozent. Für das laufende Fiskaljahr 2026 erwartet das Unternehmen rund 194 Milliarden Dollar alleine im Data-Center-Segment. Der Marktanteil bei Data-Center-AI-Accelerators liegt laut mehreren Analystenhäusern weiterhin bei 86 bis 92 Prozent. Prognosen für 2026/27 sehen einen Rückgang auf rund 75 Prozent — in absoluten Zahlen aber weiteres Wachstum, weil der Markt schneller wächst, als Anteile verloren gehen.
Die Produkt-Taktung des Marktführers verhärtet die Position zusätzlich. Blackwell Ultra (B300, 288 GB HBM3e, 15 Petaflops FP4) liefert seit Januar 2026 aus. Vera Rubin (R200) soll in der zweiten Jahreshälfte 2026 folgen: 336 Milliarden Transistoren, 288 GB HBM4, 22 TB/s Speicherbandbreite, laut Nvidias eigener Prognose zehnmal niedrigere Inference-Kosten pro Token gegenüber Blackwell. Der eigentliche Graben liegt aber nicht im Chip. Er liegt im Packaging: Nvidia sichert sich nach Angaben von Paradox Intelligence über 60 Prozent der gesamten TSMC-CoWoS-Kapazität 2026 und über 70 Prozent der höherwertigen CoWoS-L-Variante, die für HBM-Integration nötig ist. Wer heute einen Plan für 2027 schmiedet, muss also nicht nur Silizium bekommen, sondern auch den Platz im CoWoS-Backend.
CUDA ist und bleibt der unsichtbare Moat: rund 85 Prozent Marktanteil bei AI-Training. ROCm (AMD) schließt 2026 zwar auf — die MI355X lag im MLPerf-Inference-Benchmark vom 1. April 2026 im einstelligen Prozentbereich hinter Nvidias B200 — aber der Wechsel kostet Engineering-Zeit, für die keine einzige Finanzvorstand zahlen will, solange das bestehende Setup liefert.
Der Groq-Deal: die neue Form der Vollendung
Der Schock der Branche kam am 24. Dezember 2025. Nvidia verkündete eine „non-exclusive licensing agreement“ mit Groq — nicht eine Akquisition im klassischen Sinn. Die Struktur: Nvidia lizenziert Groqs LPU-Inference-IP, übernimmt die Führung (CEO Jonathan Ross, President Sunny Madra sowie Kern-Ingenieure wechseln zu Nvidia), und Groq firmiert unter neuem CEO Simon Edwards (vormals CFO) formal als unabhängige Inference-Cloud weiter. Transaktionswert nach Marktmeldungen: rund 20 Milliarden Dollar — etwa dreimal die letzte Groq-Finanzierung vom September 2025 (750 Millionen zu 6,9 Milliarden Bewertung). Damit wäre es der größte Nvidia-Deal überhaupt.
Die gewählte Form ist kein Zufall. Eine klassische Übernahme hätte die Hart-Scott-Rodino-Meldung und eine garantierte Prufung ausgelöst. Eine reine Lizenzvereinbarung plus Personaltransfer umgeht das — bis zum 4. Februar 2026, an dem Warren, Blumenthal und Wyden einen Brief an Nvidia verschickten, der den Deal als „reverse acqui-hire“ beschreibt und DOJ sowie FTC zur Prüfung auffordert. FTC-Chair Ferguson hatte im Januar 2026 öffentlich erklärt, solche Deal-Strukturen in die Aufsicht einbeziehen zu wollen. Eine mögliche Folge: Unwind-Order, Zwangsveräußerung der Lizenz, Geldstrafen. Der Prozess läuft.
„Die gewählte Dealstruktur vermeidet den formalen Zusammenschluss — für die Kartellbehörden ist das nicht die entscheidende Frage.“
Drei Überlebensstrategien
Wenn Groq gefallen ist, was bleibt den anderen? Ein Blick auf die drei größten verbliebenen unabhängigen Nvidia-Konkurrenten zeigt drei völlig unterschiedliche Wege.
Cerebras — die Staatsfonds-Pfadabhängigkeit. Die technischen Zahlen des WSE-3-Chips sind beeindruckend: 4 Billionen Transistoren, 900.000 Cores auf einer einzigen Siliziumscheibe, 969 Tokens pro Sekunde bei Llama 3.1-405B, laut Cerebras 21-mal schneller als ein Nvidia-DGX-B200 bei einem Drittel der Kosten. Kommerziell ist die Story aber eindimensional: MBZUAI plus G42 plus ein OpenAI-Infrastruktur-Deal über über 10 Milliarden Dollar (Januar 2026, 750 MW Compute bis 2028). Der OpenAI-Vertrag brachte Cerebras eine kritische Diversifizierung — aber OpenAI ist gleichzeitig Kunde der Hyperscaler, die Nvidia-Hardware nutzen. Die VAE-Konzentration bleibt das Risiko, das jeden IPO-Investor als Erstes stören wird. Kurzfassung des Modells: Wer keinen westlichen Hyperscaler gewinnt, hängt vom nächsten Staatsfonds-Deal ab.
SambaNova — der Hyperscaler-Begleiter. Im Januar 2026 zerschlug sich überraschend die fortgeschrittene Übernahmeverhandlung mit Intel: 1,6 Milliarden Dollar standen im Raum. SambaNova lehnte ab, weil die Auftragsbucher im Schlussquartal 2025 so gut liefen, dass Vista Equity und Cambium Capital im Februar eine 350-Millionen-Series-E bereitstellten, an der sich Intel Capital sowie Staatsfonds aus Katar und Saudi-Arabien beteiligten. Der neue SN50-RDU-Chip (TSMC N3, 3,2 Petaflops FP8, bis zu 2 TB DDR5-Speicher plus 64 GB HBM2e) ist für agentische Inference optimiert und soll laut SambaNova fünfmal schneller und dreimal effizienter sein als ein B200. Der Erstkunde: SoftBank Corp. Japan. Parallel sicherte sich SambaNova eine mehrjährige Intel-Partnerschaft (Xeon-CPUs, Intel-GPUs als Host). Das Modell: spezifische Workload-Nische (Long Context, Agent Inference) bedienen und sich bewusst nicht als Nvidia-Ersatz positionieren.
Tenstorrent — die ARM-Strategie. Jim Kellers Firma setzt auf einen völlig anderen Business-Pfad. 693 Millionen Dollar Series-D Ende 2025, nachgelagert auf 800 Millionen bei 3,2 Milliarden Bewertung aufgestockt, Samsung Securities und Fidelity als Leads, Hyundai und Kia als strategische Investoren (je 30 und 20 Millionen). Das Produkt ist nicht der eigene Chip, sondern eine lizenzierbare IP-Familie: Ascalon als RISC-V-CPU-Kern, Tensix als AI-Beschleuniger. Tenstorrent will nicht der nächste Nvidia werden, sondern der nächste ARM — einer, der Chip-Designs an andere verkauft, statt selbst zu fertigen. Der offene Software-Stack und die Razer-Partnerschaft im Januar 2026 für Edge-AI-Beschleuniger deuten den Weg an. Der Nachteil: Lizenz-Geschäfte skalieren langsamer als Hardware-Verkäufe und funktionieren erst, wenn genug Lizenznehmer vorhanden sind.
Der stille Angriff aus den Hyperscaler-Fabs
Die sichtbare Konkurrenz zu Nvidia besteht aus Startups — die strukturell gefährlichere kommt aus den Cloud-Konzernen selbst. Google stellte am 7. November 2025 den TPU v7 mit dem Codenamen Ironwood vor: 4.614 FP8-Teraflops pro Chip, 192 GB HBM3e, ein Pod mit 9.216 Chips, zehnmal Peak gegenüber TPU v5p, und erstmals für reine Inference ausgelegt. AWS Trainium 3 (3 nm, 144 GB HBM3e, UltraServer mit 144 Chips) wird bei Anthropic, OpenAI und Apple eingesetzt. Microsoft Maia 200 (3 nm, 216 GB HBM3e, 30 Prozent bessere Preis-Leistung) ist Inference-fokussiert. Meta zieht mit MTIA-Generation 3 in Produktion ab Mitte 2026 und hat über Broadcom vier weitere Generationen bis 2027 kontrahiert.
Die Auswirkung auf den Markt ist konkret. Custom-ASICs halten 2025 rund 10 bis 15 Prozent Marktanteil; Prognosen sehen bis 2030 einen Anstieg auf 15 bis 25 Prozent bei einer Wachstumsrate von 44,6 Prozent pro Jahr. Gleichzeitig verschiebt sich das Gesamtgewicht von Training zu Inference: 2025 liegt der Inference-Anteil an den AI-Compute-Ausgaben bereits bei 50 Prozent, 2026 bei rund zwei Dritteln, Prognose 2030: 75 Prozent. Inference ist gleichzeitig das Segment, in dem Non-Nvidia-Chips die besten Chancen haben — weil Software-Portierung kleiner ist als im Training, und weil Latenz und Preis pro Token direkt die Kundenrechnung treffen.
Was Tech-Leads daraus mitnehmen sollten
Für CTOs und PMs, die Infrastruktur-Entscheidungen für die kommenden achtzehn Monate treffen müssen, ergeben sich drei konkrete Leitplanken.
Erstens: Die Lock-in-Frage zum zweiten Mal stellen. Wer bisher standardmäßig Nvidia-Hardware vorgeschrieben oder CUDA-Kernels in die eigene Codebasis geschrieben hat, sollte diese Entscheidung 2026 erneut prüfen. Für Training ist Nvidia noch die rationale Wahl. Für Inference — der größere Posten — sind die Kostendifferenzen zu Non-Nvidia-Alternativen zu groß, um sie zu ignorieren: Laut einer Register-Analyse vom März 2026 liegt der Cost-per-Token auf spezialisierten Inference-Chips zwischen fahig fünf- bis fünfzigmal niedriger als auf GPUs. Nvidia kontert mit Vera Rubins Preis-Leistungs-Sprung, aber die Rechnung bleibt offen. Praktische Konsequenz: PyTorch-first schreiben, Triton oder OpenXLA nutzen, wo möglich, und sich nicht auf proprietare CUDA-Features festnageln.
Zweitens: Multi-Vendor-Strategie über Cloud-APIs absichern. AWS Bedrock, Google Vertex, Azure AI Foundry abstrahieren die Hardware komplett weg. Wer über diese Schichten konsumiert, kann seinen Anbieter wechseln, ohne den eigenen Code zu ändern. Der Nachteil: Preis und Kontrolle. Der Vorteil: Resilienz gegen Allokationsengpässe. Für Unternehmen, die keine eigene Beschaffungsstrategie auf Chip-Ebene stemmen können, ist das der pragmatischste Hedge gegen den CoWoS-Engpass und die Nvidia-Allokation.
Drittens: Open-Weights-Strategie als Hardware-Unabhängigkeit. Llama, Qwen, Gemma, DeepSeek — offene Modelle laufen auf Cerebras-WSE, auf Groq-LPU, auf AMD MI355X, auf Intel Gaudi und auf TPUs. Wer Closed-Model-Provider mit einer eigenen Hardware-Abhängigkeit nutzt (Anthropic auf AWS Trainium, OpenAI auf Nvidia/Cerebras-Mischung), erbt deren strukturelle Fragilitäten. Für kritische Inference-Workloads wird die Open-Weights-Option 2026 nicht mehr nur aus Kosten-, sondern aus Resilienz-Gründen interessant.
Wohin der Markt läuft
Das Signal von Cerebras’ IPO ist ambivalent. Zum ersten Mal hat ein Nvidia-Herausforderer öffentliche Zahlen, wachsenden Umsatz und einen Gewinn vorgelegt. Zum ersten Mal wird ein AI-Chip-Unternehmen außerhalb der Hyperscaler-Welt an die Börse gehen — mit der Chance, durch die Notierung Kapital und Deckung für den weiteren Weg zu bekommen. Zum anderen zeigt die Finanzierungsgeschichte seit 2024, dass nur drei Arten von Ankerkunden für Pure-Play-Startups existieren: Staatsfonds (Cerebras, SambaNova), Hyperscaler (OpenAI, SoftBank) oder strategische Industriekunden (Hyundai/Kia für Tenstorrent). Das indische oder europäische Unternehmen, das einfach mal AI-Chips kauft, ist nicht die Zielgruppe.
Das bedeutet auch: Der Markt für AI-Beschleuniger entwickelt sich nicht in Richtung Vielfalt, sondern in Richtung geteilter Geopolitik. Nvidia-CUDA bleibt der Westen-Standard. Huawei-Ascend wird Chinas Standard (mit US-Exportkontrollen, die auch Nicht-US-Personen treffen). Cerebras und SambaNova operieren als Middle-East-Proxy-Infrastruktur. Die Sorge, die CFIUS und DOJ umtreibt, ist damit nicht nur kartellrechtlich, sondern strategisch: Wer die AI-Chips liefert, bestimmt, wer welche Modelle trainieren und ausliefern kann. Für europäische Unternehmen ist das eine Aufforderung zum Hedging — nicht aus ökonomischer Kalkulation, sondern aus strategischer Notwendigkeit.
Cerebras’ IPO könnte der letzte Versuch eines unabhängigen Nvidia-Herausforderers sein, am Public Market Kapital zu beschaffen. Ob er gelingt, hängt nicht von der Technik ab, sondern davon, ob Investoren 86 Prozent Kundenkonzentration aus einem einzigen Land als Lösung oder als Hypothek einordnen. Bis zur Preisspanne in den kommenden Wochen bleibt das die offene Frage — und sie entscheidet darüber, wie lang das Zeitfenster für einen weiteren Pure-Play-AI-Chip-Launch am Public Market überhaupt noch offen steht.