Reportage: Googles TurboQuant — Die Inferenz, 29. März 2026

Die teuerste Notizzettel-Sammlung der Welt

Wenn ein großes Sprachmodell wie GPT, Claude oder Gemini einen langen Text verarbeitet, muss es sich merken, was es bereits gelesen hat. Dafür nutzt die Transformer-Architektur einen Mechanismus namens Key-Value-Cache — kurz KV-Cache. Man kann sich das vorstellen wie einen Stapel Notizzettel: Für jedes Wort, das das Modell verarbeitet, legt es zwei Einträge an — einen „Schlüssel“ (Key), der beschreibt, worum es geht, und einen „Wert“ (Value), der den Inhalt enthält. Bei jedem neuen Wort schaut das Modell seine gesamte Zettelsammlung durch, um zu entscheiden, welche früheren Informationen für die nächste Antwort relevant sind.

Das Problem: Diese Zettelsammlung wächst linear mit der Textlänge. Bei einem Kontext von 128.000 Tokens — etwa einem mittellangen Roman — kann der KV-Cache allein 30 bis 50 Gigabyte GPU-Speicher belegen. Bei den teuersten H100-GPUs von Nvidia, die aktuell zwischen 25.000 und 40.000 Dollar kosten, ist nicht Rechenleistung der Engpass, sondern Arbeitsspeicher. Wer mehr Nutzer gleichzeitig bedienen will, braucht mehr GPUs — nicht weil der Prozessor ausgelastet wäre, sondern weil der Speicher voll ist.

Genau hier setzt TurboQuant an: Googles neuer Kompressionsalgorithmus, der am 25. März 2026 veröffentlicht und zur Präsentation auf der ICLR 2026 angenommen wurde, komprimiert den KV-Cache von 16 Bit auf nur 3 Bit pro Wert — eine Reduktion um den Faktor 6. Und das Bemerkenswerte: ohne messbaren Qualitätsverlust.

Wie TurboQuant funktioniert

Herkömmliche Quantisierungsverfahren wie GPTQ oder AWQ komprimieren die Gewichte eines Modells — also das trainierte Wissen. TurboQuant macht etwas anderes: Es komprimiert nicht das Gehirn, sondern das Kurzzeitgedächtnis. Die Gewichte bleiben unberührt.

Der Algorithmus arbeitet in zwei Stufen. In der ersten Stufe kommt PolarQuant zum Einsatz: Statt die Datenvektoren im KV-Cache in ihrem ursprünglichen kartesischen Koordinatensystem zu speichern, wandelt PolarQuant sie in Polarkoordinaten um — also in eine Größe (Magnitude) und einen Satz von Winkeln. Der Clou: Die Winkelverteilungen sind mathematisch vorhersagbar und konzentriert. Dadurch entfallen die sonst üblichen Normalisierungskonstanten pro Datenblock, was den Speicher-Overhead eliminiert, den andere Quantisierungsverfahren als unvermeidlichen Preis akzeptieren.

In der zweiten Stufe greift QJL (Quantized Johnson-Lindenstrauss). Dieser Baustein nimmt den kleinen Restfehler aus der ersten Stufe, projiziert ihn durch eine zufällige Gauss-Matrix und speichert nur das Vorzeichen — plus oder minus — jeder Projektion. Genau 1 Bit pro Dimension. Mathematisch garantiert die Johnson-Lindenstrauss-Transformation, dass die wesentlichen Abstandsbeziehungen zwischen Datenpunkten erhalten bleiben. QJL fungiert damit als mathematischer Fehlerkorrektur-Mechanismus, der den Quantisierungsbias eliminiert.

Das Ergebnis: 2 Bit aus PolarQuant plus 1 Bit aus QJL ergeben 3 Bit pro KV-Cache-Eintrag — statt der üblichen 16. Und das ohne Training, ohne Kalibrierungsdaten, ohne modellspezifische Anpassungen. Ein universeller Algorithmus, der auf jedes Transformer-Modell anwendbar ist.

Was die Zahlen bedeuten

In Benchmarks auf Nvidia H100 GPUs liefert TurboQuant bei 4-Bit-Quantisierung eine bis zu 8-fache Beschleunigung bei der Berechnung der Attention-Logits im Vergleich zur 32-Bit-Referenz. Der KV-Cache-Speicherbedarf sinkt um mindestens den Faktor 6. In Qualitätstests auf den Modellen Gemma und Mistral zeigte der Algorithmus keinen messbaren Genauigkeitsverlust — eine Community-Implementierung in PyTorch bestätigt 99,5 Prozent „Attention Fidelity“.

Was heißt das in der Praxis? Ein Rechenbeispiel: Wenn ein Inference-Server bisher 100 gleichzeitige Anfragen bedienen konnte, bevor der GPU-Speicher voll war, sind es mit TurboQuant potenziell 600. Oder anders formuliert: Dieselbe Hardware, die bisher ein 35-Milliarden-Parameter-Modell mit 64.000 Tokens Kontext bedienen konnte, könnte künftig dasselbe Modell mit 384.000 Tokens Kontext betreiben — oder ein deutlich größeres Modell im selben Speicherfenster.

Die Marktreaktion: Panik, dann Korrektur

Die Veröffentlichung löste an den asiatischen Börsen ein kleines Beben aus. Samsung Electronics fiel um über 4 Prozent an der Korea Exchange, SK Hynix brach rund 6 Prozent ein, Kioxia verlor ebenfalls etwa 6 Prozent. Die Logik der Anleger war simpel: Wenn KI-Modelle sechsmal weniger Speicher brauchen, wird weniger High-Bandwidth-Memory (HBM) verkauft.

Doch diese Rechnung greift zu kurz. Morgan Stanley veröffentlichte noch am selben Tag eine Analyse, die auf das Jevons-Paradoxon verwies — ein ökonomisches Prinzip aus dem 19. Jahrhundert: Wenn eine Ressource effizienter genutzt wird, sinkt zwar der Verbrauch pro Einheit, aber die Gesamtnachfrage steigt, weil neue Anwendungsfälle wirtschaftlich werden. Genau das geschah bereits Anfang 2025, als DeepSeek ähnliche Effizienzgewinne beim Training erzielte und die Chip-Nachfrage anschließend nicht sank, sondern stieg.

Analysten von Korea Investment & Securities wiesen zudem auf einen Interpretationsfehler hin: TurboQuant reduziert nicht den Speicherbedarf generell, sondern komprimiert Daten innerhalb des vorhandenen Speichers. Die Bandbreite der HBM-Chips — also wie schnell Daten gelesen und geschrieben werden — bleibt genauso gefragt wie zuvor. TurboQuant betrifft vor allem Standard-DRAM in Inference-Servern, nicht die HBM-Chips, die für das Training großer Modelle entscheidend sind. Der HBM-Markt wird laut TrendForce 2026 um 58 Prozent auf 54,6 Milliarden Dollar wachsen.

Was das für lokale Modelle bedeutet

Für die wachsende Community, die Sprachmodelle lokal auf Consumer-Hardware betreibt, ist TurboQuant ein Game-Changer — aber ein anderer als bei den Cloud-Providern. Hier geht es nicht um Kostensenkung, sondern um die Frage: Welche Modelle passen überhaupt auf meine Hardware?

Bisher war der KV-Cache der stille Killer langer Kontextfenster auf Consumer-GPUs. Ein quantisiertes 35B-Modell mag in 24 GB VRAM passen — aber sobald das Gespräch länger wird, läuft der KV-Cache über und das Modell bricht ab oder wird extrem langsam. Mit TurboQuant könnte die Kombination aus 4-Bit-Gewichtsquantisierung (via GGUF oder AWQ) und 3-Bit-KV-Cache-Kompression dafür sorgen, dass ein 35B-Modell auf einer RTX 4090 mit 24 GB nicht nur läuft, sondern mit langen Kontextfenstern nutzbar wird.

Entscheidend ist: TurboQuant konkurriert nicht mit bestehenden Quantisierungsverfahren — es ergänzt sie. GPTQ, AWQ und GGUF komprimieren die Gewichte (das Langzeitwissen). TurboQuant komprimiert den KV-Cache (das Arbeitsgedächtnis). Ein optimales Deployment könnte in Zukunft AWQ für Gewichte, FP8 für Aktivierungen und TurboQuant für den KV-Cache kombinieren.

Die Community wartet nicht auf Google: Unabhängige Entwickler haben bereits funktionierende Implementierungen in PyTorch, Rust, Triton und MLX gebaut. Eine llama.cpp-Integration befindet sich in aktiver Diskussion, mit einer funktionierenden C-Implementierung und 18 von 18 bestandenen Tests. Apple-MLX-Support funktioniert bereits in Community-Builds. Stabile Integration in die Mainstream-Tools — vLLM, TensorRT-LLM, llama.cpp — wird für Q3 2026 erwartet.

Was das für Unternehmen bedeutet

Für Unternehmen, die KI-Produkte betreiben oder einsetzen, hat TurboQuant drei unmittelbare Implikationen.

Erstens: Inferenz-Kosten sinken substanziell. VentureBeat schätzt die Kostenreduktion auf über 50 Prozent für speichergebundene Workloads. Wer heute zehn GPUs für Inference braucht, könnte mit vier oder fünf auskommen. Das ist nicht inkrementell — das verändert Business Cases.

Zweitens: Bisher unwirtschaftliche Anwendungen werden möglich. Eine Legal-Tech-Firma, die sich nur die Verarbeitung von 10-seitigen Verträgen leisten konnte, könnte mit derselben Infrastruktur 60-seitige Verträge verarbeiten. Ein Coding-Assistent, der den Repository-Kontext bei 50.000 Tokens abschneiden musste, könnte vollen Kontext bei 300.000 Tokens halten.

Drittens: On-Premises-KI wird realistischer. TurboQuant ist trainings- und datenagnostisch — es funktioniert auf jedem feingetunten Modell, ob Llama, Mistral oder Gemma, ohne die spezialisierte Performance zu gefährden. Unternehmen, die aus Datenschutz- oder Compliance-Gründen keine Cloud-APIs nutzen können, kommen mit deutlich weniger Hardware aus.

Einordnung: Ein Effizienz-Sprung, kein Revolution

TurboQuant ist keine Magie. Es löst ein spezifisches Problem — den KV-Cache-Engpass — und es löst ihn elegant. Aber es macht Modelle nicht schlauer, es senkt nicht die Trainingskosten, und es ersetzt keine besseren Architekturen. Die offiziellen Google-Implementierungen werden erst für Q2 2026 erwartet; bis dahin arbeitet die Community mit eigenen Nachbauten.

Wer die KI-Industrie länger beobachtet, erkennt ein Muster: Alle 12 bis 18 Monate erscheint ein algorithmischer Durchbruch, der die Inference-Kosten um eine Größenordnung senkt — Flash Attention 2022, Grouped-Query Attention 2023, DeepSeek-Effizienzen 2025, jetzt TurboQuant 2026. Jedes Mal prophezeiten Analysten sinkende Hardware-Nachfrage. Jedes Mal passierte das Gegenteil: Die günstigere Inferenz machte neue Anwendungen wirtschaftlich, die Gesamtnachfrage stieg.

TurboQuant wird dieses Muster vermutlich bestätigen. Die eigentliche Nachricht ist nicht, dass KI billiger wird — sondern dass sie in Orte vordringt, an denen sie bisher nicht wirtschaftlich betrieben werden konnte. Vom Edge-Device über den Mittelstands-Server bis zum Legal-Tech-Startup: Der Kreis derer, die ernsthaft mit großen Sprachmodellen arbeiten können, wird größer. Und das ist die eigentlich relevante Konsequenz.

Googles TurboQuant — KV-Cache-Kompression auf 3 Bit und was das für Inferenz-Kosten und lokale Modelle bedeutet