Hardware · Google Cloud Next 2026
Googles neue KI-Chips: Ironwood jetzt verfügbar, TPU 8 spaltet Training und Inferenz
Die Schlagzeile ist Ironwood: Googles siebter TPU-Chip ist ab dem 22. April für Google-Cloud-Kunden buchbar. Die Zahlen sind eindrucksvoll — 4,6 Petaflops FP8 pro Chip, 192 Gigabyte HBM3e-Speicher und 7,37 Terabyte Speicherbandbreite pro Sekunde (4,5-mal mehr als beim Vorgänger Trillium). In einer maximalen Superpod-Konfiguration mit 9.216 Chips erreicht Ironwood 42,5 Exaflops. Google formuliert das Verhältnis zum weltstärksten Supercomputer El Capitan (1,7 Exaflops) ganz bewusst: mehr als das 24-fache.
Die eigentliche Strategiemeldung ist jedoch die Ankündigung der achten TPU-Generation in zwei Varianten. TPU 8t („Sunfish“) wurde für Training optimiert — gemeinsam mit Broadcom entwickelt, dual-die-Architektur, acht Stapel HBM3e, rund 30 Prozent höhere Speicherbandbreite als Ironwood und eine Skalierung bis 9.600 Chips in einer Superpod mit zwei Petabyte gemeinsamem HBM. Auf Pod-Skala: 121 Exaflops. TPU 8i („Zebrafish“) wurde für Inferenz gebaut — gemeinsam mit MediaTek, 288 Gigabyte HBM (50 Prozent mehr als Ironwood), dreimal so viel On-Chip-SRAM, ein „Boardfly“-Interconnect mit halbiertem Netzwerkdurchmesser und ein neuer Collectives Acceleration Engine, der die Latenz bei autoregressive Dekodierung um bis zu fünffachen reduziert. Beide Chips zielen auf TSMCs 2-Nanometer-Prozess; allgemeine Verfügbarkeit ist für spät 2027 geplant.
Was macht diese Architektur anders als Nvidia? Der Schlüssel liegt nicht im Einzelchip-Vergleich — dort liegt Ironwood in FP8-Rechenleistung und HBM-Kapazität auf ähnlichem Niveau wie Nvidias Blackwell-Generation. Der Unterschied liegt in der Cluster-Skalierung. Nvidias größte Standardkonfiguration verknüpft 72 GPUs über NVLink in einem GB200-NVL72-System. Googles TPU-Superpod verknüpft über 9.000 Chips. Das ICI-Interconnect liefert dabei über die gesamte Pod-Breite kollektive Operationen in Zeiten, die Nvidia-Fabrics nicht erreichen. Anthropic bestätigt intern, Training auf TPUs koste rund 52 Prozent weniger pro effektivem Petaflop als auf GB300-NVL72-Systemen. Unabhängige Analysen von SemiAnalysis beziffern den TCO-Vorteil für externe GCP-Kunden auf 30 bis 44 Prozent gegenüber vergleichbaren Nvidia-Konfigurationen.
Die Schwachstellen sind real. Ironwood unterstützt kein FP4 — Nvidias wichtigster Inferenz-Quantisierungshebel bei Blackwell. NVLink liefert mit 14,4 Terabit Bandbreite pro Gerät mehr als Ironwoods ICI mit 9,6 Terabit. Und das XLA-Compiler-Ökosystem ist enger als Nvidias CUDA-Welt mit jahrzehntelanger Reife. Wer heute PyTorch-basierte Workloads betreibt, braucht Konvertierungsarbeit für TPUs. Google bietet seit letztem Jahr PyTorch-Support auf TPUs in der Preview — aber es ist kein Drop-in-Ersatz.
Für Infrastruktur-Entscheider in SaaS-Unternehmen ergibt sich daraus eine differenzierte Botschaft. Ironwood ist ab sofort buchbar und attraktiv für Inference-Heavy-Workloads bei größeren Deployments — insbesondere dort, wo Batch-Inferenz und hoher Durchsatz wichtiger sind als niedrige Einzelanfragen-Latenz. TPU 8t und 8i sind relevante Investitionssignale für 2027: Wer heute GCP-Verträge abschließt, sollte frühzeitig Zugang zu Early-Access-Programmen sichern. Nvidia behält vorerst seinen Marktanteil von rund 92 Prozent bei Rechenzentrum-GPUs — und wird auch auf GCP als Vera-Rubin-Option angeboten. Die eigentliche Verschiebung kommt später in diesem Jahrzehnt, wenn benutzerdefinierte Chips aus der Nische zum Standard werden.
- Google Cloud Blog — AI infrastructure at Next '26
- TechCrunch — Google Cloud launches two new AI chips to compete with Nvidia
- Google Blog — Ironwood: The first Google TPU for the age of inference
- SemiAnalysis — TPUv7: Google Takes a Swing
- VentureBeat — Google doesn’t pay the Nvidia tax
- The Next Web — Google splits its next TPU in two