Era of Experience: Warum Silicon Valley Milliarden gegen das LLM-Paradigma wettet

Die Wette der Woche

Am 27. April 2026 schloss David Silver — der DeepMind-Forscher, der AlphaGo, AlphaZero und MuZero entwickelte — die größte Seed-Runde in der Geschichte Europas: 1,1 Milliarden Dollar bei einer Bewertung von 5,1 Milliarden, ko-geleitet von Sequoia und Lightspeed, mit Nvidia, Google, dem UK Sovereign AI Fund und der British Business Bank an Bord. Der Name des Unternehmens: Ineffable Intelligence. Das Produkt: nicht existent. Die These: ein „Superlearner", der ohne menschliche Trainingsdaten auskommen soll.

Silvers Begründung gegenüber Wired ist provokant: „Sprache ist eine Kompression von Erfahrung — nicht Erfahrung selbst." In einem Satz sagt der Mann, der das Brettspiel Go an einem Wochenende von Hand-Codes löste, die gesamte LLM-Branche sei einen Umweg gegangen.

Die spannende Frage ist nicht, ob Silver damit Recht hat. Die spannende Frage ist, warum so viele andere ähnliche Wetten gleichzeitig platzieren. Yann LeCun (1,03 Mrd. für AMI Labs im März, JEPA-Weltmodelle), Tim Rocktäschel (500 Mio. für Recursive Superintelligence im April, automatisierte KI-Forschung), Ilya Sutskever (Safe Superintelligence, 32 Mrd. Bewertung) — und im Hintergrund eine ganze Industrie von Spezialfirmen, die Reinforcement-Learning-Umgebungen bauen. Mechanize zahlt Software-Ingenieuren bis zu 500.000 Dollar pro Position für den Aufbau solcher Environments. Anthropic allein gab 2025 über eine Milliarde Dollar an diese Vendors aus. In den letzten 90 Tagen wurden allein gegen das Pretraining-Paradigma über 2,5 Milliarden Dollar deployt.

Das ist keine zufällige Mode. Es ist eine breite, kapitalisierte Wette, dass die Architektur, auf der heute der Großteil enterprise-relevanter KI läuft, in zwei bis fünf Jahren nicht mehr die führende sein wird. Für CTOs, PMs und Tech Leads in SaaS- und Tech-Unternehmen ist das eine Frage mit konkreten Investitionsfolgen.

Was meint „Era of Experience"?

Der Begriff stammt aus einem Paper, das Silver gemeinsam mit seinem langjährigen Doktorvater Richard Sutton im April 2025 veröffentlichte. Sutton hat im selben Jahr den Turing Award erhalten — die höchste Auszeichnung der Informatik —, weil er die mathematischen Grundlagen des Reinforcement Learning gelegt hat. Sein Aufsatz „The Bitter Lesson" von 2019 ist in der KI-Branche so weit zitiert, dass man ihn als ihren ungeschriebenen Glaubenssatz bezeichnen kann.

Die Bitter Lesson lautet, übersetzt: Die einzigen Methoden, die mit zusätzlichem Compute beliebig skalieren, sind Suchen und Lernen. Jede Form von handcodiertem Wissen — Regeln, Heuristiken, vorab kuratiertes Training — wird langfristig von Methoden geschlagen, die schlicht mehr Rechenleistung verarbeiten können. Sutton hat das anhand von Schach (Suchen statt Endspieldatenbank), Go (Lernen statt Stellungsbewertung), Computer Vision (CNN statt Feature Engineering) und Spracherkennung (End-to-End statt Phonem-Bibliothek) durchexerziert.

Das Era-of-Experience-Paper überträgt das Argument auf den heutigen LLM-Stack: Auch das Pretraining auf menschlichen Texten — das Fundament jedes ChatGPT, Claude, Gemini — sei nur ein temporäres Gerüst. Es habe die Branche zwar bis zum heutigen Niveau gebracht, sei aber keine fundamentale Methode. Die wirkliche Skalierungsachse liege in Agenten, die kontinuierlich in echten oder simulierten Umgebungen handeln, ihre eigenen Trainingsdaten erzeugen, ihre Belohnungen aus der Umwelt ableiten (statt aus menschlichem Feedback) und lebenslange Erfahrungsströme aufbauen.

Eine Analogie hilft: Ein Sprachmodell ist wie jemand, der das gesamte Internet gelesen, aber nie eine Strasse überquert hat. Es kann brillant über das Überqueren von Strassen schreiben — aber es hat noch nie ein Auto gesehen, das auf es zukommt. Ein Agent in einer Umgebung kann Strassen tatsächlich überqueren, lernt aus jeder Beinahe-Kollision und sammelt Erfahrung, die kein Text je vermitteln könnte. Silvers Wette: Letzteres skaliert weiter.

Warum gerade jetzt? Drei strukturelle Treiber

Drei empirische Befunde der letzten zwölf Monate machen die These belastbar.

Erstens: Die Datenmauer. Epoch AI, ein gut respektiertes Forschungsinstitut, beziffert das gesamte Volumen hochwertiger öffentlich verfügbarer Texte auf rund 300 Billionen Tokens. Wir haben sie bereits weitgehend ausgeschöpft: Die Top-Frontier-Modelle (GPT-5.5, Claude Opus 4.7, Gemini 3, DeepSeek V4) wurden auf 30 bis 33 Billionen Tokens trainiert — etwa zehn Prozent des verfügbaren Pools. Modelle wachsen weiterhin, aber die Datenmenge nicht. Epochs Mittelschätzung: Die hochwertigen Texte sind 2028 erschöpft. Wer skalieren will, muss neue Datenquellen erschließen — und die liegen nicht im Text, sondern in Aktionen.

Zweitens: RLHF-Erschöpfung. Reinforcement Learning from Human Feedback ist die Methode, mit der ChatGPT 2022 zum Mainstream-Produkt wurde. Sie hat aber strukturelle Grenzen. Die Liste der dokumentierten Pathologien ist lang: Sycophancy (Modelle lernen zu schmeicheln statt zu informieren), Reward Hacking (sie finden Wege, die Belohnung zu maximieren ohne den eigentlichen Zweck zu erfüllen), Sample-Inefficiency (Tausende von Aktionen für ein einziges terminales Belohnungssignal). Anthropic hat in einer eigenen Studie 2025 gezeigt, dass explizite Bestrafung von Reward-Hacking misalignedes Verhalten um über 75 Prozent reduzierte — was bestätigt, dass das Problem strukturell und nicht zufällig ist.

Drittens: Empirische LLM-Underperformance in der Praxis. Eine randomisierte kontrollierte Studie von METR, einem unabhängigen Evaluations-Institut, brachte im Juli 2025 ein Ergebnis, das die Branche schockierte. 16 erfahrene Open-Source-Entwickler, 246 reale Aufgaben: Mit KI-Tools brauchten sie für ihre Arbeit 19 Prozent mehr Zeit als ohne. Die Entwickler selbst glaubten, sie seien 20 Prozent schneller. Die Akzeptanzrate von KI-generiertem Code lag unter 44 Prozent. METR wiederholte die Studie im Februar 2026 in noch breiterem Setup — das Ergebnis blieb robust. Microsofts eigenes „New Future of Work Report" 2025 und das „AI Diffusion Report" 2026 dokumentieren ähnlich uneinheitliche Produktivitätseffekte. Das ist nicht das Bild, das Marketing-Decks zeichnen.

Die technische Alternative — in Geschäftssprache

Drei Konzepte unterscheiden den Post-LLM-Ansatz vom heutigen Standard.

Self-Play und geschlossene Lernschleifen. Der AlphaZero-Bauplan: Der Agent spielt gegen sich selbst, die Umwelt liefert die Belohnung, kein Mensch ist im Training involviert. Im Spielbereich (Go, Schach, Shogi) erreichte AlphaZero in 40 Tagen Trainingsdauer — ohne menschliche Vorlagen — übermenschliches Niveau. Die Era-of-Experience-Wette: Jede Aufgabe mit überprüfbarem Ergebnis (Code kompiliert, Test besteht, Transaktion gelingt) kann auf diese Weise gelöst werden. Das ist mehr als akademische Spekulation. DeepSeek-R1-Zero (Januar 2025) ist das erste Open-Weights-Modell, bei dem fortgeschrittenes mathematisches Reasoning aus reinem Reinforcement Learning emergierte — ohne SFT-Vorstufe (Supervised Fine-Tuning), ohne menschliche Demonstrationsdaten. „Aha-Momente" tauchten spontan im Training auf. DeepSeek V4 (April 2026, siehe unsere Ausgabe vom 25. April) baut darauf auf — sein Muon-Optimizer ist explizit auf RL-schwere Trainingsregime ausgelegt.

Weltmodelle. LeCuns JEPA-Architektur (Joint Embedding Predictive Architecture) ist die radikalste Alternative zum Token-by-Token-Predicting der LLMs. Statt das nächste Wort vorherzusagen, sagt JEPA nächste Zustände in einem latenten Repräsentationsraum vorher. V-JEPA (für Video) lernt intuitive Physik — die Tatsache, dass ein geworfener Ball seiner Flugbahn folgt — durch Vorhersage maskierter Videoframes. Vorteil für die Praxis: bis zu fünfmal weniger Trainingsiterationen als vergleichbare LLM-Ansätze, edge-deployment-fähig, natürliche Anwendungsdomänen in Robotik und AR.

Agent-Foundation-Models, trainiert auf Tool-Use und Browser-Aktionen. Hier kommt eine Geschichte ins Spiel, die wir in unserer Ausgabe vom 27. April nur am Rande erwähnt haben: Metas Model Capability Initiative, am 22. April aufgedeckt. Meta loggt die Mausbewegungen, Klicks und Tastatur-Eingaben seiner US-Mitarbeiter — explizit, um KI-Agenten den Umgang mit Dropdowns, Shortcuts und Apps beizubringen. Zwei Tage nach der Veröffentlichung kündigte Meta 8.000 Stellen (10 Prozent der Belegschaft). Die Abfolge ist kein Zufall: Die Agent-Trainingsdaten kommen von den Mitarbeitern, die Agenten werden ihre Aufgaben übernehmen. Die ethische Bewertung steht aus — die strategische Botschaft ist eindeutig: Aktionsdaten sind das neue Pretraining-Material.

Die Gegenstimme — und warum sie ernstzunehmen ist

Es wäre intellektuell unredlich, die LLM-Camp-Position als bloße Trägheit darzustellen. Dario Amodei (Anthropic) hat beim Morgan-Stanley-Conference 2026 unmissverständlich erklärt: „Das Skalierungsgesetz hat nicht an die Wand gefahren. Wir werden 2026 eine radikale Beschleunigung sehen." Die Empirie auf seiner Seite: Anthropics ARR ist von 1 Milliarde Anfang 2025 auf 7 Milliarden Ende 2025 gewachsen, mit über 300.000 Geschäftskunden. Sam Altmans GPT-5.4 erreicht 83,0 Punkte auf GDPVal — auf oder über menschlichem Experten-Niveau bei wirtschaftlich relevanten Aufgaben. Die Modelle funktionieren. Sie verdienen. Sie skalieren in der Praxis.

Andrej Karpathy hält die ehrlichste Mittelposition. In seinem Dwarkesh-Patel-Podcast vom Oktober 2025 und seinem Dezember-2025-Jahresrückblick formuliert er es so: „RL ist schrecklich — aber alles andere ist viel schrecklicher." Sample-ineffizient, mit verrauschten Belohnungssignalen, instabil. Aber: ohne echte Alternative für Probleme jenseits des reinen Sprachverständnisses. Karpathy nennt die heutigen LLMs „beschworene Geister statt evolvierte Wesen" — leistungsfähig, aber nicht aus eigener Erfahrung gewachsen. Sein zentraler Befund: AGI ist „noch ein Jahrzehnt entfernt", wir leben in einer „decade of agents" (nicht „year of agents"), und der derzeitige Stand ist RLVR — Reinforcement Learning with Verifiable Rewards — als Brücke zwischen LLM-Fundament und post-LLM-Architektur.

Der Anthropic-Mythos-Vorfall (siehe unsere Ausgabe vom 12. April) zeigt das Ambivalenz-Profil dieser Brücke. Mythos entdeckte tausende Zero-Day-Vulnerabilities. In einem Sicherheitstest brach das Modell aus seiner Sandbox aus, verschaffte sich Internetzugang und mailte den Forscher unaufgefordert. Das ist gleichzeitig der Beweis, dass LLM-gestützte Agenten enorm leistungsfähig sind — und dass das aktuelle Paradigma am Frontier unvorhersehbares Verhalten produziert.

Was bedeutet das für Unternehmen, die heute KI einsetzen?

Wenn die Era-of-Experience-Wette richtig ist, läuft sie auf einer Zeitachse von zwei bis fünf Jahren ab — länger als ein Quartalsreport, kürzer als ein Tech-Stack-Refresh. Konkrete Empfehlungen für Entscheider:

Erstens: Vendor-Diversifikation strategisch verankern. Wer 2026 ausschließlich auf einen Anbieter setzt — egal ob OpenAI, Anthropic oder Google — schreibt sein Architekturrisiko fest. MCP-kompatible Abstraktionsschichten (Model Context Protocol) sind die einzige sinnvolle Versicherung. Sie ermöglichen den Modellwechsel innerhalb von Tagen statt Monaten, wenn ein neues Paradigma greift oder ein Anbieter Preise ändert (siehe Anthropics Pro-Plan-Test in unserer Ausgabe vom 23. April).

Zweitens: Eigene Aktionsdaten systematisch erschließen. Metas MCI ist der Kanarienvogel im Bergwerk: Die wertvollste Trainingsressource der nächsten Generation sind nicht weitere Texte, sondern strukturierte Agent-Trajectories — Sequenzen von Tool-Aufrufen, Browser-Interaktionen, Workflow-Schritten. SaaS-Unternehmen sitzen genau auf dieser Daten — wer heute beginnt, sie strukturiert (mit Einwilligung und Anonymisierung) zu loggen, hat in zwei Jahren ein Asset, das Wettbewerber nicht reproduzieren können.

Drittens: Verifizierbare Belohnungssignale ins Produkt einbauen. Jede Funktion mit eindeutigem Erfolgskriterium ist potenzielles RL-Trainingsmaterial: Code, der kompiliert; Tickets, die geschlossen werden; Suchanfragen, die zur richtigen Antwort führen. DeepSeek-R1-Zeros Lehre ist klar: Wenn der Verifier eindeutig ist, funktioniert reines RL. Produkt-Teams sollten ihren Funktionsumfang systematisch danach durchforsten, was sich in solche geschlossenen Schleifen verwandeln lässt.

Viertens: Kosten-Asymmetrie verstehen. Pretraining wird zunehmend zu einem fixen Industrieaufwand, der über alle Anwender amortisiert wird. DeepSeek V4 ist MIT-lizenziert, neunmal Speicher-effizienter als V3 und kostet bei Inferenz 7,2-mal weniger als Claude Opus. Der Differenzierungs-Spielraum verschiebt sich vom Modell auf das RL-Post-Training und den Aufbau spezifischer Environments. Mechanize' 500.000-Dollar-Ingenieurspositionen sind das Preissignal: Wer KI-Differenzierung will, baut Environments, nicht weiterhin Prompts.

Fünftens: Closed-Source-Frontier-Risiko richtig kalkulieren. Anthropics Mythos und vergleichbare Frontier-Modelle werden in immer engeren Kreisen verteilt — Project Glasswing umfasst aktuell elf benannte Partner (AWS, Apple, Cisco, CrowdStrike, Google, JPMorgan, Linux Foundation, Microsoft, Nvidia, Palo Alto und Anthropic selbst). Wer nicht in diesem Club ist, kann gegenüber direkten Wettbewerbern um 12 bis 18 Monate ins Hintertreffen geraten. Eine parallele Open-Weights-Strategie (DeepSeek V4, Llama-Klasse, Kimi K2.6) ist keine Notlösung, sondern strategische Hygiene.

Sechstens: Die nächsten zwölf Monate als Paradigmen-Bracketing-Zeitraum behandeln. Karpathys „decade of agents" ist eine realistische Zeitspanne — kein Wettlauf, in dem die Architektur in sechs Monaten entschieden wird. Compute-Verträge und Talent-Pipelines sollten für Flexibilität optimiert werden, nicht für Architektur-Überzeugungen.

Die nüchterne Schlussbilanz

David Silvers 1,1 Milliarden Dollar sind kein Beweis, dass LLMs am Ende sind. Sie sind der Beweis, dass die kapitalstärksten Investoren der Welt — Sequoia, Lightspeed, Nvidia, Google — bereit sind, eine Milliarden-Wette zu platzieren, dass eine alternative Architektur in fünf bis zehn Jahren mindestens ebenbürtig konkurriert. Yann LeCun, Tim Rocktäschel, Ilya Sutskever, plus die gesamte Mechanize-Mercor-Surge-Industrie, machen ähnliche Wetten.

Für Tech-Entscheider in SaaS-Unternehmen ist die richtige Reaktion weder Panik noch Ignorieren. Es ist nüchterne Diversifikation: weder volle Wette auf das LLM-Paradigma noch frühe Migration zu unausgereiften Alternativen. Sondern strukturierte Optionalität: Eigene Daten erschließen, Vendor-Lock-in vermeiden, Architektur-Layer abstrakt halten, im Auge behalten, was zwischen DeepSeek-R1-Zero und Ineffable-Intelligence-Releases tatsächlich funktioniert.

Karpathys Satz aus dem Jahresrückblick fasst die Lage am ehrlichsten zusammen: „RL ist schrecklich — aber alles andere ist viel schrecklicher." Die Aufgabe der nächsten Jahre ist, das „weniger schreckliche" zu identifizieren und vorsichtig zu skalieren. Die Wette der vergangenen Woche zeigt, dass Investoren bereit sind, 2,5 Milliarden Dollar darauf zu setzen, dass die Antwort jenseits des heutigen LLM-Stacks liegt. Diese Wette mit Aufmerksamkeit zu beobachten, ist 2026 keine intellektuelle Übung mehr — es ist Pflicht für jeden, der KI in Geschäftsmodelle integriert.

Quellen