← Zurück zur Ausgabe vom 16. Mai 2026

Reportage

Die Subprime-AI-These wird real: Was die GitHub-Copilot-Umstellung über die Zukunft der KI-Tool-Ökonomie verrät

Am 1. Juni 2026 endet eine Ära. GitHub stellt Copilot auf Flex-Billing um, Microsoft entzieht tausenden eigenen Engineers Claude Code, und die Subventionen, die das AI-Coding-Ökosystem groß gemacht haben, erodieren sichtbar. Was Ed Zitron seit zwei Jahren als „Subprime AI“ bezeichnet, hat den Sprung in die Quartalsberichte geschafft.

Von Stefan Lange-Hegermann · · ca. 9 Minuten Lesezeit

Der 902-Dollar-Schock

Die nüchternste Zahl der Umstellung steht in einer Diskussion im GitHub-Community-Forum. GitHubs eigenes Vorschau-Tool errechnete für eine reale April-Nutzung 39,07 Dollar unter dem alten Premium-Request-Modell — und 902,72 Dollar unter dem neuen AI-Credits-Modell. Der Faktor 23 ist kein Edge-Case, sondern die direkte Konsequenz aus agentischen Workflows, die im Hintergrund parallelisiert Token in Mengen verbrennen, für die das Pauschal-Abo nie gedacht war.

GitHub kontert diese Realität ab dem 1. Juni 2026 mit drei Schritten: Pro bleibt bei 10 Dollar (1.000 Base- plus 500 Flex-Credits), Pro+ bleibt bei 39 Dollar (3.900 Base- plus 3.100 Flex-Credits), und ein neuer Max-Tarif für 100 Dollar zielt auf Power-User mit 10.000 Base- plus 10.000 Flex-Credits. Bemerkenswert ist die Formulierung im GitHub-Blog: Der Flex-Anteil werde „dynamisch nach ökonomischen Faktoren wie Modellkosten" angepasst. Übersetzt: Wenn Anthropic oder OpenAI die API-Preise erhöhen, schrumpft das Inklusivvolumen.

Vorzeichen gab es genug. Bereits am 21. April 2026 pausierte GitHub die Neuregistrierungen für Pro-, Pro+- und Student-Tarife — ein Vorgang, den die Plattform so seit 2008 nicht mehr erlebt hat. Opus 4.5 und 4.6 wurden aus Pro entfernt, Opus 4.7 nur noch in Pro+ angeboten. Laut interner Dokumente, die Tech-Journalist Tom Warren und Ed Zitron einsehen konnten, haben sich die Wochenkosten des Copilot-Betriebs für Microsoft seit Januar 2026 nahezu verdoppelt.

Microsoft zieht den Stecker bei Claude Code

Zwei Wochen vor der Tarifumstellung folgte der nächste Domino. Am 14. Mai 2026 berichtete Tom Warren in seinem Newsletter „Notepad", dass Microsofts Experiences-and-Devices-Division — verantwortlich für Windows, Microsoft 365, Outlook, Teams und Surface — den internen Zugang zu Claude Code bis zum 30. Juni 2026 kappt. Tausende Engineers, die seit Dezember 2025 Anthropics CLI nutzten, müssen auf Copilot CLI migrieren.

Die offizielle Begründung: Standardisierung, Telemetrie, Tool-Integration. Die inoffizielle: Geld. Der 30. Juni ist Microsofts Fiscal-Year-Ende, und externe Software-Lizenzen vor dem neuen Geschäftsjahr zu eliminieren ist ein klassisches Cost-Engineering-Manöver. Joe Binders Aussage in der Begleitkommunikation, GitHub passe das Abo-Modell an „die wirtschaftliche Realität von Agenten-Workflows" an, klingt im Licht dieses Schritts wie eine Untertreibung.

Pikant: Das passiert nur sechs Monate, nachdem Microsoft, Nvidia und Anthropic die größte Allianz der AI-Branche verkündeten. Im November 2025 investierte Microsoft 5 Milliarden Dollar in Anthropic, Nvidia legte 10 Milliarden drauf, und Anthropic verpflichtete sich zu einem 30-Milliarden-Dollar-Compute-Commitment auf Azure. Anthropic wurde dabei mit 350 Milliarden Dollar bewertet. Sechs Monate später wirft derselbe Geldgeber die Tools des Geldempfängers aus dem eigenen Haus. Das ist keine Marketing-Geschichte, das ist Bilanzdisziplin.

Zitrons These: subventionierte Realitätsverweigerung

Ed Zitrons Argument wirkte 2024 noch wie Polemik. 2026 liest es sich wie ein Drehbuch. Seine Kernthese: AI-Subscriptions waren immer ein „subsidy scam". Anthropic hat nach Zitrons Recherchen 5 Milliarden Dollar Umsatz gegen 10 Milliarden Compute-Kosten gesetzt; OpenAI 4,3 Milliarden Umsatz gegen 8,67 Milliarden Inferenz-Ausgaben. Für jeden Subscription-Dollar verbrennen Power-User — je nach Quelle — das Acht- bis Dreizehnfache an realen Token-Kosten.

Microsoft kennt die Mechanik. Bereits Oktober 2023 hatte das Wall Street Journal aus internen Quellen berichtet, dass GitHub Copilot bei einem 10-Dollar-Abo durchschnittlich 20 Dollar pro User pro Monat Verlust macht — einzelne Power-User kosteten bis zu 80 Dollar. Drei Jahre später ist der Mechanismus derselbe, nur in größerem Maßstab und mit agentischen Workflows als Brandbeschleuniger.

Zitron formuliert es in seinem aktuellen Newsletter „The Subprime AI Crisis Is Here" so: Tausende Unternehmen haben generative AI zu Preisen integriert, die „weit von stabil und noch weiter von profitabel" entfernt sind. Wenn die Preise zur ökonomischen Realität konvergieren — und genau das passiert gerade —, werden viele Business-Cases plötzlich nicht mehr funktionieren.

Das Cursor-Vorspiel und die Anthropic-Gegenbewegung

Wer wissen will, wie die Reise endet, schaut auf Cursor. Der Editor änderte Anfang 2025 leise die Premium-Request-Multiplikatoren mehrerer Modelle von 1× auf 20×. Nutzer, die mit Claude 3.5 Sonnet zuvor 500 Requests pro Monat hatten, kamen plötzlich auf 25. Bills von über 300 Dollar im Monat tauchten in Reddit-Threads auf. 2026 hat Cursor eine transparentere Credit-Struktur — Pro 20 Dollar, Pro+ 60 Dollar (3× Usage), Ultra 200 Dollar (20× Usage) — aber das Grundmuster bleibt: Wer Modelle nutzt, zahlt API-Preise plus Marge. Die Subvention ist weg.

Anthropic geht noch einen Schritt weiter. Ab dem 15. Juni 2026 trennt das Unternehmen Claude-Subscriptions in „interaktive" und „programmatische" Pools. Agent-SDK-Aufrufe, claude -p, GitHub Actions und Drittanbieter-Agenten ziehen aus dem Hauptkontingent in einen separaten, nicht übertragbaren monatlichen Credit von 20 bis 200 Dollar. Damit beendet Anthropic explizit das, was Branchenbeobachter „Compute-Arbitrage-Ära" nennen: dass ein 20-Dollar-Pro-Abo Agenten-Workflows befeuern konnte, die direkt über die API mehrere Hundert Dollar kosten würden.

Noch hält Anthropic die offiziellen Listenpreise stabil — Pro 20, Max 5× 100, Max 20× 200 Dollar. Power-User berichten weiterhin von 600 bis 1.500 Dollar Token-Wert für 200 Dollar Flatrate. Aber die Architektur des Trennungsmodells ist eine Vorbereitung. Wenn die nächste Anpassung kommt, wird sie nicht in Pressemitteilungen verkündet, sondern in den Credit-Multiplikatoren versteckt.

Was CTOs jetzt tun sollten

Die Konsequenzen für SaaS- und Tech-Unternehmen sind konkreter als die Schlagzeilen vermuten lassen. Ubers CTO musste öffentlich einräumen, dass Uber sein gesamtes AI-Jahresbudget bereits nach vier Monaten ausgeschöpft hatte — Hauptverursacher: Claude Code. Mehrere Unternehmen berichten Token-Spend-Steigerungen von 10× innerhalb eines Halbjahres. Sechs Bausteine sollten bei jeder Tool-Strategie jetzt auf den Tisch:

  1. Token-Verbrauch monitoren. FinOps für AI ist nicht optional. Tools wie Vantage, Finout oder Truefoundry liefern Visibility auf Team- und Projekt-Ebene; ohne Chargeback-Mechanismus tragen die teuersten Workflows niemand persönlich, also wachsen sie ungebremst.

  2. Modell-agnostische Architektur. Wer in Anwendungslogik direkt Anthropic- oder OpenAI-Calls hardcoded hat, sitzt in der Falle, sobald ein Anbieter Preise oder Kontingente ändert. Gateways wie Requesty, OpenRouter oder LiteLLM erlauben Modellwechsel ohne Refactoring.

  3. Budget-Caps mit Augenmaß. Pauschale Caps bestrafen die produktivsten Teams. Besser: ROI-Gates pro Use-Case und automatische Approval-Workflows ab definierten Schwellen.

  4. Tokenmaxxing-Disziplin entwickeln. Tokenverbrauch als Stolzmetrik — „ich habe heute 50 Millionen Tokens verbrannt" — ist die neue Variante von Lines-of-Code-Vanity. Sie produziert Verschwendung, die in stabilen Subventionsmodellen unsichtbar bleibt und in Flex-Billing-Modellen direkt auf die Rechnung wandert.

  5. Modelle wechseln können. Wer die Wahl zwischen Claude, GPT und Gemini je Task hat, kann auf Preisänderungen in Wochen statt Quartalen reagieren. Open-Source-Optionen (Qwen 3, DeepSeek V3.x) als Fallback einplanen.

  6. On-Prem-Optionen evaluieren. vLLM auf eigenen GPU-Clustern für Production-Workloads, Ollama für Entwickler-Maschinen, llama.cpp und Apple MLX für Edge-Cases. Self-Hosted-Cluster werden 2026 nicht aus ideologischen, sondern aus drei nüchternen Gründen attraktiver: Kosten, Datenschutz, Latenz. Bei stabilen Workloads liegen die Total-Cost-of-Ownership-Punkte deutlich unter API-Preisen.

Wer überlebt diesen Schraubstock?

Realistische Survivor-Kandidaten sind die Tools, die entweder sehr nah am Hyperscaler sitzen (GitHub Copilot, Codex, Cursor mit eigenen Margenpolstern und VC-Burndown) oder konsequent modell-agnostisch sind (Aider, OpenCode, Cline). Erstere verlieren ihre Subventionen, bleiben aber als Distributionsschienen relevant; Letztere werden zu Default-Werkzeugen für preisbewusste Teams, weil OpenCode plus DeepSeek-API für 2 bis 5 Dollar pro Monat existiert.

Heikel wird es für die Mittelschicht: Tools mit eigener Pricing-Story, aber ohne nennenswerten Margenpuffer und ohne Hyperscaler-Allianz. Roo Codes Abschaltung am 15. Mai 2026 ist das erste prominente Beispiel.

Der Cerebras-IPO — in der Reportage vom 15. Mai 2026 ausführlich diskutiert — passt in dieses Bild: Wenn Inferenzkosten zur strategischen Variable werden, profitieren alternative Compute-Architekturen. Cerebras, AWS Trainium und Google TPU werden für Modellanbieter, die Margen retten müssen, plötzlich attraktiv — nicht trotz, sondern wegen Nvidia-Dominanz.

Das Ende des freien Mittagessens

Die GitHub-Copilot-Umstellung am 1. Juni 2026 ist kein Tarif-Update, sondern ein Signal. Die Branche bewegt sich von subventioniertem Wachstum zu Preisrealismus. Für Unternehmen, die AI-Coding-Tools strategisch eingesetzt haben, beginnt damit ein neues Spiel — mit Bilanzregeln, die seit der Cloud-Migration der frühen 2010er nicht mehr gelten.

Ed Zitron wird vermutlich nicht in allem recht behalten. Aber dass die Mittagessen frei waren, weil jemand anderes bezahlt hat, lässt sich nicht mehr bestreiten. Die Frage ist nur: Wer steht als Nächstes auf?

Quellen