Reportage: Der KI-Chip-Krieg — Die Inferenz, 20. März 2026

Als Jensen Huang am 16. März auf der GTC 2026 in San José die Bühne betrat, trug er seine berühmte Lederjacke und ein Versprechen im Gepäck: „Tokens are the new commodity. AI factories are the infrastructure that produces them.“ Mit der Vera-Rubin-Plattform stellte er sieben neue Chips vor — darunter den Rubin-GPU mit 336 Milliarden Transistoren und 50 Petaflops Inferenz-Leistung. Der Saal tobte. Die Aktie stieg. Und hinter den Kulissen fragten sich CTOs weltweit: Können wir uns das leisten — und müssen wir?

Die Antwort auf diese Frage war noch nie so komplex wie Anfang 2026. NVIDIAs Dominanz im KI-Chip-Markt — geschätzt rund 75 Prozent bei Beschleunigern, herunter von 87 Prozent im Jahr 2024 — wird erstmals von allen Seiten gleichzeitig angegriffen: AMD liefert mit der MI400-Serie eine ernst zu nehmende Alternative, Google und Amazon bauen eigene Chips in noch nie dagewesener Geschwindigkeit, und sogar Meta hat in zwei Jahren vier Generationen hauseigener Chips auf den Markt gebracht.

NVIDIA: Die Billionen-Dollar-Maschine

Die Vera-Rubin-Plattform ist NVIDIAs Antwort auf den wachsenden Wettbewerb — und sie ist beeindruckend. Der Rubin-GPU, gefertigt bei TSMC im 3-Nanometer-Verfahren, bietet 288 Gigabyte HBM4-Speicher mit 22 Terabyte pro Sekunde Bandbreite. Ein einzelnes NVL72-Rack — 72 GPUs und 36 CPUs, flüssigkeitsgekühlt — erreicht 3,6 Exaflops. Zum Vergleich: Das wäre vor fünf Jahren die Leistung der schnellsten Supercomputer der Welt gewesen.

NVIDIA verspricht, dass Vera Rubin mit einem Viertel der GPUs trainieren kann, was Blackwell brauchte, und dabei zehnmal mehr Inferenz-Durchsatz pro Watt liefert. Jensen Huang prognostiziert bis 2027 „mindestens eine Billion Dollar“ an Bestellungen für Blackwell und Vera Rubin zusammen. Erste Einheiten sollen ab August 2026 ausgeliefert werden.

Doch NVIDIAs größter Vorteil ist nicht die Hardware — es ist CUDA. Das Software-Ökosystem, das seit 2007 aufgebaut wurde, bindet Entwickler und Unternehmen in einem Maße, das selbst technisch überlegene Alternativen schwer überwindbar macht. Wer heute KI-Modelle trainiert, denkt in CUDA. Umzulernen kostet Zeit, Geld und birgt Risiken.

„Die Hardware ist nur das sichtbare Drittel des Eisbergs. CUDA, die Treiber, die Bibliotheken — das ist der unsichtbare Lock-in, der NVIDIA schützt.“

AMD: Vom Underdog zum Duopol-Partner

AMD hat mit der MI400-Serie „Vulkan“ einen echten Konkurrenten geschaffen. Die Zahlen lesen sich beeindruckend: 432 Gigabyte HBM4, 40 Petaflops FP4, und laut AMD bis zu 40 Prozent mehr Tokens pro Dollar als vergleichbare NVIDIA-Hardware bei bestimmten Workloads. Noch wichtiger: OpenAI hat einen Sechs-Gigawatt-Deal mit AMD geschlossen, beginnend mit MI450-Deployments in 2026.

Doch AMDs Marktanteil liegt weiter bei geschätzt fünf bis acht Prozent. Das Problem ist weniger die Hardware als das Ökosystem: ROCm, AMDs Software-Stack, hat gegenüber CUDA aufgeholt, ist aber noch nicht gleichwertig. Für Unternehmen bedeutet das: AMD ist eine glaubwürdige Zweitquelle, aber kein Ersatz. Wer auf AMD setzt, braucht Entwickler, die mit der Plattform vertraut sind — und die sind rar.

Die Hyperscaler bauen selbst

Die spannendste Entwicklung spielt sich bei den Cloud-Anbietern ab. Google, Amazon und Meta investieren Milliarden in eigene KI-Chips — nicht um NVIDIA zu ersetzen, sondern um die Abhängigkeit zu reduzieren und Kosten zu senken.

Googles TPU-Programm ist am weitesten fortgeschritten. Die sechste Generation „Trillium“ liefert 4,7-fache Rechenleistung pro Chip gegenüber dem Vorgänger. Im November 2025 schloss Anthropic den größten TPU-Deal in Googles Geschichte — Hunderttausende Trillium-Chips, skalierend auf eine Million bis 2027. Google erzielt geschätzt einen vier- bis sechsfachen Kostenvorteil pro Compute-Einheit gegenüber NVIDIA-GPU-Käufern. Die siebte Generation „Ironwood“ ist der erste TPU, der explizit für Inferenz im großen Maßstab designt wurde — mit Pods aus 9.216 Chips und 42,5 Exaflops FP8.

Amazons Trainium 3, der erste 3-Nanometer-KI-Chip des Unternehmens, bietet 2,52 Petaflops FP8 und 144 Gigabyte HBM3e. Bis zu eine Million Chips können vernetzt werden. Der Clou: Die bereits angekündigte nächste Generation Trainium 4 wird NVIDIAs NVLink Fusion unterstützen — ein bemerkenswertes Signal, dass selbst die größten Custom-Silicon-Hersteller keine vollständige Abkopplung von NVIDIA anstreben.

Meta hat in zwei Jahren vier Chip-Generationen vorgestellt — ein Entwicklungstempo, das in der Branche ungewöhnlich ist. Der MTIA 500 Superchip, mit 1.700 Watt TDP und 30 Petaflops MX4, basiert auf einer eigenen RISC-V-Architektur — weder NVIDIA, AMD, Intel noch ARM. Metas Strategie ist klar auf Inferenz ausgerichtet: Die Milliarden Nutzer auf Facebook, Instagram und WhatsApp erzeugen einen enormen Inferenz-Bedarf, den eigene Chips kosteneffizienter bedienen können als zugekaufte GPUs.

Die geopolitische Dimension

Der KI-Chip-Krieg ist auch ein geopolitischer Konflikt. Die USA haben ihre Exportbeschränkungen für China Anfang 2026 teilweise gelockert — NVIDIA H200 und äquivalente AMD-Chips dürfen wieder verkauft werden. Gleichzeitig liegt im Kongress der überparteiliche „AI OVERWATCH Act“, der Halbleiter-Exporte wie Waffenverkäufe behandeln und NVIDIA-Blackwell-Verkäufe an „Foreign Entities of Concern“ für zwei Jahre verbieten würde.

Chinas Antwort heißt Huawei Ascend. Der 910C erreicht ungefähr die Leistung eines NVIDIA H100 — respektabel, aber eine Generation hinter dem aktuellen Stand. Die Ausbeute hat sich von 20 auf fast 40 Prozent verdoppelt, zum ersten Mal ist die Produktion profitabel. Baidu, ByteDance und Tencent sind Kunden. Der Ascend 910D, der Blackwell und Rubin herausfordern soll, ist in Entwicklung. Die Performance-Lücke bleibt, aber sie schrumpft.

Das größte Risiko für die gesamte Branche trägt einen Namen: TSMC. Der taiwanesische Chipfertiger kontrolliert über 90 Prozent der Advanced-Node-Produktion. Bloomberg Economics schätzt die Kosten eines Taiwan-Konflikts auf zehn Billionen Dollar — rund zehn Prozent des globalen BIP. Eine Diversifizierung der Fertigung ist kurzfristig nicht machbar.

Was bedeutet das für Unternehmen?

CTOs und Tech Leads stehen 2026 vor einer Infrastruktur-Entscheidung, die ihre Kosten und ihre Flexibilität für Jahre prägen wird. Drei Strategien kristallisieren sich heraus:

Strategie 1: All-in NVIDIA. Maximale Flexibilität dank CUDA, größtes Entwickler-Ökosystem, beste Tool-Unterstützung. Aber auch höchste Kosten und Abhängigkeit von einem einzelnen Anbieter. Für Unternehmen, die Modelle trainieren und maximale Kontrolle brauchen.

Strategie 2: Cloud-native mit Custom Silicon. Google TPU, AWS Trainium oder Azure-Infrastruktur nutzen. Beste Kosteneffizienz bei Skalierung, besonders für Inferenz. Aber Vendor-Lock-in und weniger Kontrolle über die Hardware. Für Unternehmen, die Modelle primär nutzen statt trainieren.

Strategie 3: Multi-Chip, Multi-Cloud. Zunehmend praktikabler durch Standards wie NVLink Fusion und verbesserte ROCm-Kompatibilität. Komplexer zu managen, aber resilient gegen Lieferengpässe und Preiserhöhungen. Für große Unternehmen mit dedizierten Infrastruktur-Teams.

Samsung hat gerade angekündigt, 74 Milliarden Dollar in Chipfertigung und Forschung zu investieren — 22 Prozent mehr als im Vorjahr. HBM4 ist bereits in Massenproduktion. Das Signal ist eindeutig: Der KI-Chip-Markt wächst auf über 200 Milliarden Dollar, und jeder große Akteur will ein Stück davon. Für Entscheider heißt das: Die Auswahl wird besser, die Preise werden langfristig sinken — aber die Komplexität der Entscheidung steigt. Wer heute die falsche Plattform wählt, zahlt morgen den Preis in Migrationskosten und verlorener Entwicklerproduktivität.

Der KI-Chip-Krieg: NVIDIA gegen den Rest der Welt

NVIDIA: Die Billionen-Dollar-Maschine

AMD: Vom Underdog zum Duopol-Partner

Die Hyperscaler bauen selbst

Die geopolitische Dimension

Was bedeutet das für Unternehmen?