← Zurück zur Ausgabe vom 15. Mai 2026

Reportage

Cerebras' Börsendebüt und die Inference-Ökonomie der Agentic-Ära

Der größte US-Tech-IPO seit Uber 2019 — und ein präzises Signal, wie sich der Chip-Markt umstellt. Warum Inferenz inzwischen über zwei Drittel des AI-Compute-Budgets ausmacht, warum Cerebras seine Wafer-Scale-Strategie zur Nvidia-Alternative formt, warum die Konkurrenz aus Hyperscaler-eigenen ASICs ernst zu nehmen ist — und was das für SaaS-CTOs zwischen Tokenmaxxing, Modell-agnostischen Inferenz-Layern und Stromkosten konkret bedeutet.

Von Stefan Lange-Hegermann · · ca. 11 Minuten Lesezeit

Der 14. Mai 2026 wird in die Chronik der Halbleiterindustrie eingehen — nicht wegen eines technologischen Durchbruchs, sondern wegen eines klaren Marktsignals: Zum ersten Mal hat ein rein auf KI-Inferenz spezialisiertes Unternehmen den Schritt an die Börse gewagt, und der Markt hat mit einem der wildesten ersten Handelstage seit Jahren reagiert. Cerebras Systems, Hersteller des weltgrößten Chips, eröffnete bei 350 Dollar, erreichte intraday 385 Dollar und schloss bei 311 Dollar — ein Plus von 68 Prozent gegenüber dem Ausgabepreis von 185 Dollar. 5,55 Milliarden Dollar frisches Kapital, eine Marktkapitalisierung von annähernd 95 Milliarden Dollar, zwanzigfach überzeichnete Bücher: Das ist kein Routine-IPO. Es ist die Antwort der Kapitalmärkte auf eine strukturelle Verschiebung, die die gesamte KI-Infrastruktur — und damit die Kostenstruktur jedes SaaS-Unternehmens, das KI in seinen Produkten einsetzt — in den nächsten drei Jahren neu kalibrieren wird.

Was Cerebras von einem klassischen Chiphersteller unterscheidet

Um die Aufmerksamkeit rund um diesen Börsengang zu verstehen, muss man den technischen Ansatz kennen. Ein gewöhnlicher Chip entsteht, indem ein Siliziumwafer in viele kleine Chips gesägt wird — typischerweise 50 bis 80 Stück pro Wafer. Nvidias H100 belegt etwa 815 Quadratmillimeter. Cerebras’ Wafer Scale Engine 3 (WSE-3) belegt den gesamten Wafer: 46.225 Quadratmillimeter, 4 Billionen Transistoren, 900.000 Rechenkerne und 44 Gigabyte On-Chip-SRAM mit 21 Petabyte pro Sekunde interner Speicherbandbreite.

Die Analogie hilft: Nvidia baut schnelle Autos und verbindet sie über eine Autobahn (NVLink). Cerebras baut ein Flugzeug — ein einziges System ohne Kommunikationsumweg zwischen Chips. Das eliminiert genau den Flaschenhals, der in GPU-Clustern durch Inter-Chip-Latenz entsteht: Daten müssen nicht zwischen Chip-Grenzen umkopiert werden, weil es nur einen Chip gibt.

Gegründet 2015 von Andrew Feldman und Sean Lie, hat Cerebras seinen Fokus 2024 und 2025 deutlich verlagert: weg vom Training großer Modelle hin zur Inferenz, also dem Betrieb fertig trainierter Modelle im produktiven Einsatz. Dieser Pivot war nicht nur strategisch klug. Er war ökonomisch erzwungen.

Die fundamentale Verschiebung: Inferenz dominiert

Vor drei Jahren dominierten Training-Workloads den KI-Compute-Markt. Das Paradigma war: Einmal teuer trainieren, dann günstig einsetzen. Das hat sich 2025 und 2026 grundlegend verschoben. Aktuelle Marktdaten zeigen, dass Inferenz inzwischen über zwei Drittel des globalen KI-Compute-Budgets ausmacht — in vielen Unternehmensszenarien sogar mehr als 85 Prozent des gesamten KI-Budgets.

Der Treiber: Reasoning-Modelle wie OpenAIs o3, Claude Opus 4.7, DeepSeek R1 und Gemini Ultra generieren pro Anfrage 10 bis 100 Mal mehr Token als klassische Chat-Modelle. Ein einfacher Schreib-Prompt erzeugt wenige Hundert Token. Eine komplexe Agentic-Task mit mehrstufigem Reasoning, Tool-Calls und Millionen-Token-Kontext kann Hunderttausende Token umfassen.

Der technische Grund liegt in der Natur der Inferenz selbst. Sie besteht aus zwei Phasen: Prefill und Decode. Im Prefill werden alle Eingabe-Token parallel verarbeitet und in einem sogenannten KV-Cache (Key-Value-Cache) gespeichert — einer Art Arbeitsgedächtnis, das festhält, welche Token in welchem Kontext relevant sind. Decode, die eigentliche Ausgabegenerierung, läuft sequenziell: ein Token nach dem anderen, jedesmal mit Zugriff auf den vollständigen KV-Cache. Decode ist deshalb nicht rechenlimitiert, sondern speicherbandbreitenlimitiert: Der Chip wartet mehr Zeit darauf, Daten aus dem Speicher zu laden, als zu rechnen. Bei Kontextfenstern von einer Million Token kann der KV-Cache zig Gigabyte belegen — und muss bei jedem generierten Token einmal komplett gelesen werden. Genau hier liegt Cerebras’ struktureller Vorteil: 21 Petabyte Bandbreite pro Sekunde, vollständig on-chip.

Der Markt, den Cerebras aufmischen will

Das Timing des IPOs ist präzise gewählt. Am gleichen Tag, dem 14. Mai, veröffentlichte Nvidia einen technischen Vertiefungs-Blog zur Vera-Rubin-Plattform, der explizit das „Agentic Scale-Up Problem“ adressiert. Die Vera-Rubin-NVL72-Konfiguration bietet 288 Gigabyte HBM4-Speicher pro GPU und soll bis zu fünfmal höheren Inferenz-Durchsatz liefern als die Blackwell-Generation. Die für H2 2027 geplante NVL576-Konfiguration soll laut Schätzungen rund eine Milliarde Dollar pro Rack kosten — kein Produkt für mittelgroße SaaS-Unternehmen.

Gleichzeitig drängen alle großen Hyperscaler mit eigenen Chips in den Markt. Googles TPU v7 „Ironwood“ bietet 192 Gigabyte HBM pro Chip mit 7,37 Terabyte Bandbreite. SemiAnalysis taxiert die Cluster-TCO rund 44 Prozent günstiger als vergleichbare GB200-Konfigurationen. Anthropic setzt nach eigenen Angaben über eine Million dieser Chips für Claude-Inferenz ein. AWS Trainium 3 ist gerade gestartet, mit 2,52 PFLOPS FP8 pro Chip und einer Vertical-Scaling-Topologie nach Nvidia-Vorbild. Microsoft Maia 200 liefert über 10 PFLOPS FP4 auf TSMCs 3-Nanometer-Prozess. Der Custom-ASIC-Markt wächst laut Marktanalysten mit 44,6 Prozent CAGR — jeder große Hyperscaler baut seine Abhängigkeit von Nvidia aktiv ab.

In dieses Umfeld stößt Cerebras mit einem differenzierten Ansatz: Inference-Disaggregation. In der gemeinsam mit AWS entwickelten Architektur übernimmt der hauseigene Trainium-Chip den Prefill (parallelisierbar, GPU-freundlich), während der Cerebras CS-3 den Decode übernimmt (sequenziell, bandbreitenkritisch). Diese Arbeitsteilung ist technisch elegant und ökonomisch interessant, weil sie den teuersten Teil der Inferenz — den Memory-Bandwidth-Engpass — mit der dafür optimierten Hardware adressiert.

Der Elefant im Raum: Kundenkonzentration und zirkuläre Deals

Der IPO-Prospekt legt offen, was Analystinnen und Analysten zu Recht als primäres Risiko bezeichnen: 86 Prozent des Umsatzes von 510 Millionen Dollar im Jahr 2025 entfielen auf zwei Entitäten aus den Vereinigten Arabischen Emiraten — die Mohamed bin Zayed University of AI (MBZUAI) mit 62 Prozent und G42 mit 24 Prozent. Cerebras ist, ehrlich gesagt, ein captive Zulieferer einer souveränen KI-Initiative.

Dazu kommt die Struktur des OpenAI-Deals, der intensiv diskutiert wird. OpenAI hat sich verpflichtet, über drei Jahre Cerebras-Chips für bis zu 750 Megawatt Compute abzunehmen — ein Vertrag mit einem Mindestvolumen von über 10 Milliarden Dollar, verbunden mit Warrants auf rund elf Prozent der ausstehenden Aktien. OpenAI ist also gleichzeitig Großkunde und potenzieller Großaktionär. Und Nvidia — der wichtigste Konkurrent von Cerebras — hat seinerseits in den letzten vier Monaten über 40 Milliarden Dollar in KI-Beteiligungen investiert: CoreWeave, Anthropic, OpenAI, Mistral, Figure AI. Die „Circular-Deal“-Frage wird von Analysten und Regulatoren mit wachsender Intensität gestellt: Kauft hier Kapital Umsatz — oder umgekehrt? Eine klare Antwort gibt es noch nicht, aber das US-amerikanische Justizministerium und die SEC schauen genauer hin.

Der geopolitische Faktor verdient besondere Aufmerksamkeit: Die hohe VAE-Konzentration war bereits 2024 Grund für einen CFIUS-Review, der Cerebras zwang, den ursprünglichen IPO-Antrag zurückzuziehen. Erst nachdem G42 seine Anteile in nicht stimmberechtigte Aktien umgewandelt hatte, wurde der Weg frei. Embargo-Risiken — exportkontrollrechtliche Verschärfungen könnten Lieferungen in VAE-assoziierte Entitäten erschweren — bleiben ein reales Szenario.

Was das für SaaS-Entscheiderinnen konkret bedeutet

Die Konsequenzen für Unternehmen, die KI in ihren Produkten einsetzen, sind handfester, als es scheint. Inferenz-Kosten sind 2026 zur dominanten variablen Kostenposition in KI-nativen Produkten geworden. Eine Analyse von Andreessen Horowitz zeigt, dass mehrere KI-native Startups 60 bis 80 Cent jedes Umsatz-Dollars für Modell-Inferenz ausgeben — eine Kostenstruktur, die mit wachsendem Umsatz nicht automatisch besser wird.

Tokenkosten sind zwar um den Faktor 280 seit GPT-4-Launch gefallen — von 60 Dollar pro Million Output-Token auf Bruchteile eines Cents für optimierte Inferenz. Aber die Nutzung ist schneller gewachsen, als die Kosten gefallen sind: Jevons-Paradox im KI-Zeitalter. Agentic Workflows multiplizieren die Token-Kosten pro Nutzerinteraktion: Was früher ein einziger API-Call war, sind heute zehn, zwanzig, hundert.

Konkrete Hebel für CTOs und CFOs:

Modell-agnostische Inferenz-Layer einführen. Wer heute ausschließlich auf einen Provider setzt, verliert Verhandlungsmacht. Modell-Provider werden ihre Compute-Backends diversifizieren — Cerebras, Groq via Nvidia, TPU, Trainium. Flexible Routing-Schichten, die abhängig von Latenz, Kosten und Task-Typ entscheiden, werden zum Wettbewerbsvorteil.

Quantisierung ernst nehmen. FP4 und FP8 statt FP16 reduzieren Speicherbedarf und Bandbreitenanforderungen drastisch. Nvidias NVFP4-KV-Cache-Optimierungen sind bereits produktionsreif. Für viele Inferenz-Workloads ist der Qualitätsverlust vernachlässigbar, die Kostenreduktion erheblich.

Batch-Workloads von Echtzeit-Inferenz trennen. Nicht jede KI-Task braucht Millisekunden-Latenz. Analytik, Zusammenfassungen, asynchrone Verarbeitung können auf günstigere Spot-Inferenz verlagert werden. Echtzeit-Latenz-kritische Decode-Workloads — Chatbots, Coding-Assistenten — rechtfertigen teurere, bandbreitenoptimierte Hardware.

Tokenmaxxing-Disziplin. Prompt-Design hat direkten P&L-Impact. Jeder überflüssige Token im Kontext kostet Geld — bei Reasoning-Modellen mit langen Ketten und Tool-Calls potenziert sich das. Wer seinen Prompt-Stack 2026 nicht systematisch optimiert, finanziert ungewollt OpenAIs nächste Funding-Runde.

Die Stromkosten als versteckte Kostendimension

Die Energiekosten sind dabei ein oft unterschätzter Faktor. PJM-Kapazitätspreise — der Strommarkt, an dem ein Großteil der US-Rechenzentren hängt — sind von 28,92 Dollar pro Megawatt-Tag im Jahr 2024/25 auf 329,17 Dollar in 2026/27 gestiegen: fast eine Verzehnfachung. Die Gesamtinvestition der Hyperscaler in KI-Infrastruktur wird 2026 auf nahezu 725 Milliarden Dollar geschätzt — eine Capex-Welle, die die Stromnetze und Wassersysteme strukturell überfordert. Diese Kosten werden sich in Inferenz-API-Preisen niederschlagen, sobald die Venture-Capital-Subventionierung nachlässt.

Was bewertet die Börse eigentlich, wenn sie Cerebras mit knapp 95 Milliarden Dollar bepreist? Nicht den aktuellen Umsatz — 510 Millionen Dollar bei dieser Bewertung ergibt ein Kurs-Umsatz-Verhältnis von rund 190. Bewertet wird eine These: dass Inferenz-Compute der knappe Faktor der nächsten drei bis fünf Jahre ist, und dass spezialisierte Hardware — nicht universelle GPU-Cluster — den Engpass am besten löst.

Ausblick: Was bis Jahresende zu beobachten ist

Cerebras ist der einzige Pure-Play-KI-Inferenz-Chip-Hersteller, der börsennotiert ist. Groq wurde vom Nvidia-Übernahmedeal Ende 2025 absorbiert und erscheint nun als LPX-Beschleuniger in der Vera-Rubin-Plattform. SambaNova bleibt nach gescheiterten Akquisitionsverhandlungen mit Intel privat. Institutionelle Investoren, die an der Inferenz-Ökonomie partizipieren wollen, hatten bislang keine Alternative.

Ob der Kurs hält, hängt von drei Faktoren ab. Erstens: Kann Cerebras die Kundenbasis jenseits von VAE und OpenAI ausbauen? Zweitens: Liefert die AWS-Bedrock-Integration den versprochenen Durchsatz in der Praxis und reduziert die Inferenz-Kosten messbar gegenüber reinen Nvidia-Konfigurationen? Drittens: Bleibt das geopolitische Embargo-Risiko überschaubar?

Der Markt liest die Doppelmeldung des 14. Mai — Cerebras-Debüt und Vera-Rubin-Vertiefung — eindeutig: Spezialisierung schlägt Generalismus, wenn die Workload-Geometrie es zulässt. Für SaaS-Unternehmen, die heute Architektur-Entscheidungen für 2027 treffen, ist das ein klares Signal: Die Inference-Schicht ist keine austauschbare Commodity mehr. Wer sie als solche behandelt, zahlt 2027 die Rechnung.

Der erste Handelstag war ein Volksfest. Das eigentliche Urteil fällt in zwölf Monaten, wenn die ersten Quartalszahlen die Wachstumsthese entweder bestätigen — oder nicht. Bis dahin ist die Botschaft klar: Die Agentic-Ära frisst Compute schneller, als die Hyperscaler liefern können. Wer das nicht in seine Roadmap einpreist, plant am Markt vorbei.

Quellen