Die Inferenz — 23. März 2026

Industrie · Open Source

Cursor gibt zu: Composer 2 basiert auf Moonshot AIs Kimi K2.5 aus China

22. März 2026 · Quellen: TechCrunch, Security Boulevard, DataStudios

Das beliebteste KI-Coding-Tool der Welt hat ein Transparenzproblem. Cursor vermarktete Composer 2 als hauseigenes Modell — und verschwieg, dass die Basis ein Open-Source-Modell der chinesischen Firma Moonshot AI ist. Ein Entwickler fand die Wahrheit in der API-Konfiguration.

Hintergrund & Analyse

Am 19. März 2026 stellte Cursor „Composer 2“ als hauseigenes Coding-Modell vor. Ein Entwickler namens Fynn entdeckte kurz darauf in der API-Konfiguration die Modell-ID kimi-k2p5-rl-0317-s515-fast — was direkt auf Kimi K2.5 von Moonshot AI verwies. Cursor, mit einer Bewertung von über 9 Milliarden Dollar eines der heißesten KI-Startups im Silicon Valley, hatte die Herkunft des Basismodells in seinem Blog verschwiegen.

Co-Founder Aman Sanger räumte ein: „It was a miss to not mention the Kimi base in our blog from the start.“ VP Lee Robinson ergänzte, dass nur etwa ein Viertel des Compute-Aufwands vom Basismodell stamme, der Rest komme aus Cursors eigenem Training. Moonshot AI, ein chinesisches Unternehmen mit einer Bewertung von rund 50 Milliarden Dollar und Unterstützung von Alibaba und HongShan (ehemals Sequoia China), reagierte versöhnlich und sprach von einer „authorized commercial partnership“ über Fireworks AI.

Besonders brisant ist die Lizenzfrage: Kimi K2.5 nutzt eine modifizierte MIT-Lizenz, die bei Produkten mit über 100 Millionen monatlich aktiven Nutzern oder mehr als 20 Millionen Dollar Monatsumsatz eine prominente „Kimi K2.5“-Nennung verlangt. Cursors annualisierter Umsatz liegt bei rund 2 Milliarden Dollar — die Schwelle ist längst überschritten.

Die geopolitische Dimension ist nicht zu übersehen: Während in Washington über Exportkontrollen für KI-Technologie nach China debattiert wird, zeigt dieser Fall, dass der Technologiefluss längst in beide Richtungen läuft. Ein US-Startup mit Milliardenbewertung baut sein Kernprodukt auf einem Modell aus Peking auf. Die eigentliche Frage bleibt: Wenn 75 Prozent des Compute-Aufwands von Cursor stammt, wie Cursor behauptet — ist Composer 2 dann ein eigenes Modell oder ein Fine-Tune? Die KI-Branche hat dafür noch keine klaren Standards.

Hardware · Chipfertigung

Terafab: Musks 25-Milliarden-Dollar-Chipfabrik zwischen Vision und Größenwahn

22. März 2026 · Quellen: Bloomberg, Tom’s Hardware, Electrek, Fortune

Elon Musk will die größte Chipfabrik der Welt bauen — ohne je einen Chip gefertigt zu haben. Das Joint Venture von Tesla, SpaceX und xAI soll 2-Nanometer-Chips für KI-Inferenz und orbitale Rechenzentren produzieren. Nvidia-CEO Jensen Huang hält das für „virtually impossible“.

Hintergrund & Analyse

Am 21. März 2026 präsentierte Musk im ehemaligen Seaholm-Kraftwerk in Austin, Texas, das „Terafab“-Projekt. Die Kosten: 20 bis 25 Milliarden Dollar laut Musk, 35 bis 40 Milliarden laut Morgan-Stanley-Schätzungen. Geplant ist ein Joint Venture von Tesla, SpaceX und xAI (das SpaceX kürzlich in einem All-Stock-Deal übernommen hat). Der Standort: der North Campus von Giga Texas.

Das Vorhaben ist ambitioniert bis an die Grenze des Absurden: Chipdesign, Lithographie, Fertigung im 2-Nanometer-Prozess, Speicherproduktion, Advanced Packaging und Testing — alles unter einem Dach. Zwei Chipkategorien sind geplant: Inferenz-Chips für Tesla-Fahrzeuge und Optimus-Roboter (AI4) sowie D3-Chips für orbitale KI-Satelliten. Einen Zeitplan nannte Musk nicht; Analysten schätzen frühestens 2028.

Die Kritiker verweisen zu Recht auf das 4680-Batterieprogramm: Fünf Jahre nach dem Battery Day hat Tesla die versprochene Revolution der Batteriezellenfertigung nicht geliefert. Und Batteriezellen sind im Vergleich zur 2-nm-Chipfertigung ein vergleichsweise einfaches Unterfangen. Electrek spricht von „Verzweiflung“ — angesichts sinkender Tesla-Verkäufe in Europa und China brauche Musk ein neues Narrativ für Investoren.

Jensen Huang bezeichnete es als „virtually impossible“, TSMCs Fähigkeiten zu replizieren. Eine einzelne 2-nm-Fab mit 50.000 Wafer-Starts pro Monat kostet rund 28 Milliarden Dollar. Dass die Finanzierung noch nicht einmal in Teslas Rekord-Investitionsplan für 2026 steht, lässt die Seriosität der Ankündigung zusätzlich fraglich erscheinen. Interessant ist allerdings die strategische Logik: Die Abhängigkeit von TSMC und Nvidia ist für Musks KI-Ambitionen ein reales Problem.

Hardware · Cloud

Im Trainium-Labor: Amazons KI-Chip überzeugt Anthropic, OpenAI und Apple

22. März 2026 · Quellen: TechCrunch, SemiAnalysis, Data Centre Magazine

Während alle auf Nvidia starren und Musks Terafab-Pläne diskutieren, hat Amazon stillschweigend über eine Million eigener KI-Chips im Feld — und die wichtigsten KI-Unternehmen der Welt als Kunden gewonnen. Ein exklusiver Laborbesuch zeigt, warum.

Hintergrund & Analyse

Kurz nach Amazons 50-Milliarden-Dollar-Investitionsdeal mit OpenAI gewährte Amazon einen exklusiven Einblick in das Trainium-Entwicklungslabor. Die Zahlen sind beeindruckend: 1,4 Millionen Trainium-Chips über alle drei Generationen deployed. Anthropic betreibt Claude auf über einer Million Trainium2-Chips — Project Rainier, einer der größten KI-Compute-Cluster weltweit, ging Ende 2025 mit 500.000 Chips live. OpenAI erhält 2 Gigawatt Trainium-Rechenkapazität, und selbst Apple testet die Chips für KI-Workloads.

Der kommende Trainium3 ist ein 3-nm-Chip mit 144 GB HBM3E pro Chip, der 362 FP8 Petaflops erreicht — viermal schneller als Trainium2 und 40 Prozent energieeffizienter. Pro Chip rund 1.000 Watt, verglichen mit Nvidias GB300 bei etwa 1.400 Watt. Amazon verspricht 30 Prozent bessere Gesamtbetriebskosten pro Leistungseinheit gegenüber Nvidias GB300 NVL72 und bis zu 50 Prozent Kostenersparnis beim Training.

Besonders clever ist Amazons Strategie mit Trainium4: Der Chip wird Nvidias NVLink-Fusion-Interconnect unterstützen. Statt Nvidia frontal anzugreifen, positioniert sich Amazon als komplementärer Anbieter — Kunden können Nvidia- und Trainium-Chips im selben Rack betreiben. Das senkt die Wechselhürde und macht den Lock-in-Effekt von Nvidias CUDA-Ökosystem weniger relevant.

Wie wir in unserer Ausgabe vom 20. März berichteten, tobt der KI-Chip-Krieg auf breiter Front. Amazons Trainium-Programm ist dabei die am meisten unterschätzte Geschichte: eine vertikale Integration vom Chip über die Cloud bis zum KI-Service — und Amazon liefert bereits, während andere noch ankündigen.

Wirtschaft · Energie

WTO-Alarm: Hohe Energiepreise könnten den KI-Boom beenden

22. März 2026 · Quellen: WTO, heise online, Gizmodo, Computing.co.uk

70 Prozent des nordamerikanischen Investitionswachstums hängen an KI-Gütern. Die Welthandelsorganisation warnt: Steigende Energiepreise könnten diese Abhängigkeit zum Problem machen — und das globale Handelswachstum auf gefährliche 1,4 Prozent drücken.

Hintergrund & Analyse

Der am 19. März veröffentlichte WTO-Bericht „Global Trade Outlook and Statistics“ senkt die Prognose für das globale Warenhandelswachstum von 4,6 Prozent (2025) auf 1,9 Prozent (2026). WTO-Chefökonom Robert Staiger warnt, dass hohe Energiekosten die KI-Investitionen „einklemmen“ werden, da massive Rechenleistung und Strom benötigt werden.

Im Szenario dauerhaft hoher Energiepreise schrumpft das Handelswachstum auf 1,4 Prozent — gefährlich nahe an der Stagnation. Der geopolitische Kontext verstärkt die Sorge: Der Nahost-Konflikt treibt Öl- und LNG-Preise. Die KI-Branche ist auf eine physische, energieintensive Lieferkette angewiesen: Halbleiter, Server, Telekommunikationsgeräte, Spezialgase, Rohsilizium — alles energieabhängig.

Dabei ist die Abhängigkeit der KI-Branche von billiger Energie kein Geheimnis: Ein einzelnes großes Training kann den Stromverbrauch einer Kleinstadt für Monate verschlingen. Während Tech-Konzerne Milliardeninvestitionen in KI-Infrastruktur ankündigen, warnt die WTO, dass die energiepolitischen Grundlagen dieser Investitionen fragiler sind als angenommen.

Für die KI-Branche bedeutet das: Die Suche nach alternativen Energiequellen — von Kernkraft über Geothermie bis zu Small Modular Reactors — ist nicht nur eine Nachhaltigkeitsfrage, sondern eine existenzielle Geschäftsstrategie. Microsoft, Google und Amazon haben bereits langfristige Verträge mit Kernkraftbetreibern abgeschlossen.

Industrie · Vergütung

Compute wird zur Währung: Nvidia zahlt Ingenieuren KI-Tokens als Bonus

22. März 2026 · Quellen: CNBC, Fortune, PYMNTS

Jensen Huang setzt ein neues Signal für den Silicon-Valley-Arbeitsmarkt: Nvidia-Ingenieure erhalten künftig ein jährliches „Inference Budget“ im Wert von rund 50 Prozent ihres Grundgehalts — als interne KI-Compute-Credits.

Hintergrund & Analyse

Auf der GTC 2026 kündigte Huang an, dass Nvidia-Ingenieure zusätzlich zum Gehalt Token-Zuteilungen als interne KI-Compute-Credits erhalten. Die Tokens können genutzt werden, um KI-Agenten als Produktivitätsmultiplikatoren einzusetzen. Laut Huang werden Tokens „one of the recruiting tools in Silicon Valley“. Wichtig: Die Tokens ersetzen kein Gehalt, sondern kommen als zusätzlicher Benefit obendrauf.

Die Idee folgt einer bestechenden Logik: Wenn ein Ingenieur mit KI-Agenten die Produktivität eines Fünfer-Teams erreichen kann, ist das Inference-Budget eine Investition, kein Kostenfaktor. Gleichzeitig wirft das Modell Fragen auf: Wer kontrolliert, wofür die Tokens eingesetzt werden? Verfallen sie am Jahresende? Können sie gehandelt werden?

Die Ironie entgeht niemandem: Der CEO des wertvollsten Chipunternehmens der Welt (4,5 Billionen Dollar Marktbewertung) verdient ein Grundgehalt von nur 2 Millionen Dollar — bei einem Nettovermögen von 154 Milliarden Dollar, fast vollständig in Nvidia-Aktien gebunden.

Für die breitere Tech-Industrie ist das Signal eindeutig: Wer KI-Talente gewinnen will, muss nicht nur hohe Gehälter bieten, sondern auch Zugang zu erstklassiger Infrastruktur. Compute wird zum neuen Equity — neben Aktienoptionen und Boni wird der Zugang zu Rechenleistung zum Wettbewerbsinstrument im Kampf um Talente.

Geschäftsmodell · Werbung

Klickrate 0,91 Prozent: ChatGPT-Werbung frustriert Partner

22. März 2026 · Quellen: CNBC, Winbuzzer, t3n, Golem

OpenAIs Werbeexperiment in ChatGPT entpuppt sich als Fehlstart: Die Klickrate liegt siebenmal niedriger als bei Google Search, ein Reporting-Bug verhindert die ROI-Berechnung, und die wertvollsten Nutzer sind für Werbetreibende unerreichbar.

Hintergrund & Analyse

Im Februar 2026 startete OpenAI Werbung in ChatGPT mit namhaften Partnern: WPP, Omnicom und Dentsu — drei der größten Werbeagenturen weltweit. Die bisherige Bilanz ist ernüchternd: Die Click-Through-Rate bei ChatGPT-Ads liegt bei nur 0,91 Prozent — verglichen mit 6,4 Prozent bei Google Search im gleichen Sektor (Daten von Adthena). Marken investierten 200.000 bis 250.000 Dollar pro Test, aber die Budgets werden voraussichtlich bis Ende März nicht vollständig ausgegeben.

Ein zusätzliches Problem: Ein Fehler in OpenAIs Ad Manager Tool verhindert, dass Werbetreibende ihre eigenen Kampagnendaten einsehen können — die ROI-Berechnung ist schlicht unmöglich. Wenn Marken 250.000 Dollar in einen Test investieren und nicht einmal sehen können, ob ihre Anzeigen funktionieren, ist das ein fundamentales Vertrauensproblem.

Das Grundproblem ist struktureller Natur: Premium-Nutzer (Plus, Pro, Business, Enterprise) sind von Werbung ausgeschlossen — die wertvollsten Nutzer sind für Werbetreibende unerreichbar. Der globale Rollout wurde auf unbestimmte Zeit verschoben, die Werbung bleibt vorerst auf die USA beschränkt. OpenAI selbst gibt sich optimistisch und sagt, man sei „encouraged by early signals“.

Für OpenAI steht viel auf dem Spiel: Das Unternehmen sucht dringend nach Einnahmequellen jenseits von Abonnements, um seine enormen Betriebskosten zu decken. Wenn Werbung in ChatGPT nicht funktioniert, bleibt die Frage: Wie soll das Unternehmen langfristig profitabel werden?

Enterprise · Management

Token-Tracking: Warum Unternehmen jetzt die KI-Nutzung ihrer Mitarbeiter messen

22. März 2026 · Quellen: t3n, PYMNTS, Larridin

Was als lockeres „Probiert mal KI aus“ begann, wird zum kontrollierten Geschäftsprozess. Unternehmen wie Zapier führen Dashboards zur Überwachung des Token-Verbrauchs ein — und entdecken dabei eine Kluft zwischen Management-Euphorie und Mitarbeiter-Realität.

Hintergrund & Analyse

Token-Tracking markiert den Übergang von der Experimentierphase zur Industrialisierung der KI-Nutzung in Unternehmen. Zapier hat als eines der ersten Unternehmen ein Dashboard zur Überwachung des Token-Verbrauchs seiner Mitarbeiter eingeführt. Wenn ein Mitarbeiter fünfmal mehr Tokens verbraucht als Kollegen, wird genauer hingeschaut — entweder als Best Practice oder als Coaching-Bedarf.

Die Parallelen zur frühen Cloud-Adoption sind frappierend: Auch dort mussten Unternehmen schmerzlich lernen, dass unkontrollierter Verbrauch die Kosten explodieren lässt. Token-Budgets sind das KI-Äquivalent zu Cloud-Spending-Alerts — ein notwendiges Werkzeug, aber mit der Gefahr, Innovation abzuwürgen, wenn die Budgets zu eng gesetzt werden.

Besonders aufschlussreich ist die Kluft zwischen Management-Euphorie und Mitarbeiter-Realität: Laut einer Umfrage von Section sind 75 Prozent der Führungskräfte begeistert von KI, während 40 Prozent der Mitarbeiter berichten, dass KI keine messbare Zeitersparnis bringt. Das deutet darauf hin, dass viele Unternehmen KI-Tools eingeführt haben, ohne die Arbeitsprozesse anzupassen.

Die Warnung der Experten: Hoher Token-Verbrauch spiegelt oft ineffizientes Prompting oder „agentic workflow leaks“ wider — nicht unbedingt Produktivität. Token-Tracking als reines Verbrauchsmonitoring greift zu kurz. Unternehmen müssen den Output messen, nicht den Input: Ein Mitarbeiter, der mit 100 Tokens ein Problem löst, ist produktiver als einer, der 10.000 Tokens für das gleiche Ergebnis verbraucht.

Reportage

Voice AI: Der aktuelle Stand von Sprach-KI

320 Millisekunden Antwortzeit, 70 Prozent automatisch gelöste Kundenanrufe und ein Markt, der 2026 die 22-Milliarden-Dollar-Marke überschreitet

Sprach-KI hat den Prototypen-Status verlassen und verändert, wie Unternehmen kommunizieren. Googles Gemini übersetzt in Echtzeit in über 70 Sprachen, ElevenLabs braucht zehn Sekunden Audio für einen Stimmklon, und 78 Prozent der Top-50-Banken betreiben produktive Voice Agents. Unsere Reportage über den Stand der Technik, die Geschäftschancen und die regulatorischen Fallstricke.

Weiterlesen →

Tool-Radar

Neue & trendende KI-Tools der Woche

OpenClaw

Open-Source-KI-Agent, der lokal läuft und LLMs mit echter Software verbindet — Dateien lesen/schreiben, Shell-Befehle ausführen, APIs steuern.

Über 100.000 GitHub-Stars, 50+ Integrationen, persistenter Kontext. Von OpenAI übernommen (Feb. 2026). Ursprünglich von Peter Steinberger.

Viktor

Autonomer KI-Mitarbeiter für Slack und Teams — verbindet sich mit über 3.000 Tools und führt eigenständig Aufgaben aus, von Marketing-Audits bis App-Entwicklung.

Kein Chatbot, sondern echter „Hire“ mit eigenem Cloud-Computer. Backed von Daniel Gross, Nat Friedman. 1.000+ Teams.

LTX-2.3

Open-Source-Videogenerierung mit 22 Milliarden Parametern: Text-zu-Video bis 4K bei 24/48 FPS, inklusive nativer Audio-Generierung.

Apache 2.0, auf Consumer-Hardware lauffähig. 20-Sekunden-Clips mit Audio. Lightricks (Israel, bekannt für Facetune).

Picsart AI Agents

Erster Agent-Marktplatz für Kreative: Spezialisierte KI-Agenten automatisieren Bild-Resizing, Shopify-Produktfoto-Optimierung und Trend-Analyse.

Vier Starter-Agenten mit einstellbaren Autonomie-Leveln. WhatsApp- und Telegram-Integration. Picsart (130+ Mio. Nutzer), gelauncht 16. März.

Query Memory

API, die Dokumente, Websites und Dateien in sofort abfragbares Wissen für KI-Agenten verwandelt — Parsing, Chunking, Embeddings und Retrieval in einem Service.

Löst das RAG-Pipeline-Problem: Upload, und in Sekunden ist die Wissensbasis querybar. Indie-Startup, auf Product Hunt gelauncht (15. März).

OpenMolt

Open-Source Node.js/TypeScript-Library für programmatische KI-Agenten mit Multi-Provider-LLM-Support und persistentem Memory.

Agenten als Software, nicht als Chat: strukturierter Output via Zod-Schemas, Security-First. MIT-Lizenz, 30+ Integrationen. Indie-Entwickler aus Kanada.

Aus der Werkstatt

YouTube-Empfehlungen der Woche

Erklärvideo · 24 Min.

Elon Musk Just Dropped Terafab AI: The Future of AI Explained

TheAIGRID (391K Subs) · 22. März 2026

TheAIGRID analysiert Musks Terafab-Ankündigung: Wie unterscheiden sich zweckgebaute KI-Compute-Anlagen von traditionellen Rechenzentren? Was bedeutet das für großangelegtes Modelltraining und Inferenz? Eine nüchterne Einordnung jenseits des Hypes.

Agentic Security Runtime Video-Thumbnail

Tutorial · 5 Min.

What is Agentic Security Runtime? Securing AI Agents

IBM Technology (1,6M Subs) · 22. März 2026

IBM Technology erklärt das Konzept der Agentic Security Runtime — eine Sicherheitsschicht für autonom operierende KI-Agenten. Warum traditionelle Sicherheitsmodelle für Agenten versagen und wie Runtime-Level-Security in der Praxis aussieht.

Ausgabe vom 23. März 2026

Voice AI: Der aktuelle Stand von Sprach-KI

Tool-Radar

Aus der Werkstatt