Die Inferenz

OpenAI · Musk-Trial

Altman vor Gericht: «Musk wollte 90 Prozent» und ein «hair-raising»-Erbschaftsmoment

12. Mai 2026

Sam Altman betrat am Dienstag in Oakland erstmals den Zeugenstand und drehte die Erzählrichtung des bisherigen Prozesses um. Musk habe OpenAI «zweimal zu töten versucht», 2017 selbst 90 Prozent Equity verlangt und seinen Kindern die Kontrolle vermachen wollen, sollte er sterben — der Moment, den Altman als «hair-raising» bezeichnete. Der Auftakt seiner dreitägigen Aussage entscheidet darüber, ob Musks Klage gegen die OpenAI-For-Profit-Konversion juristisch durchhält.

Hintergrund & Analyse

Altman trat um 9 Uhr Pazifischer Zeit als 17. Zeuge der Klägerseite in den Saal des U.S. District Court for the Northern District of California. Der schwarze Anzug, die ruhige Stimme und das demonstrative Lächeln in Richtung Geschworener kontrastierten scharf zu Musks energischer Auftritt zwei Wochen zuvor. Auf die einleitende Frage nach seinem Selbstbild antwortete Altman, er halte sich für «einen ehrlichen und vertrauenswürdigen Geschäftsmann» — die Direktantwort auf den seit Tagen aufgehäuften Vorwurf eines «consistent pattern of lying», den ehemalige Boardmitglieder, Mira Murati und Greg Brockman gegen ihn vorgebracht hatten (wie wir am 12. Mai berichteten).

Die zentrale Aussage des Tages betraf Musks frühe Kontrollansprüche an OpenAI. Altman nannte unter Eid eine konkrete Forderung aus dem Jahr 2017: «Eine frühe Zahl, die Mr. Musk in den Raum warf, war, dass er anfänglich 90 Prozent des Equity haben solle.» Ergänzend beschrieb er einen Vorgang aus derselben Zeit, den er als «besonders haarsträubend» bezeichnete: Mehrere Mitgründer hätten Musk gefragt, was geschehen würde, wenn er die Mehrheitskontrolle innehätte und dann sterben würde — Musks Antwort sei der Wunsch gewesen, die Anteile an seine Kinder zu vererben. Diese Aussage steht in Kontrast zu Musks eigener öffentlicher Mars-City-Begründung aus Tag 7, in der er die Mehrheitskontrolle mit der Notwendigkeit von Querfinanzierung für SpaceX-Großprojekte rechtfertigte.

Den Kernvorwurf der Klage — Altman habe Musks gemeinnützige Vision verraten und die Charity ausgehöhlt — kehrte Altman explizit um. Musk habe OpenAI «zweimal zu töten versucht»: einmal durch den überraschenden Austritt aus dem Board Anfang 2018, dem ein Versuch der Übernahme von OpenAI in Tesla vorausgegangen sei, und ein zweites Mal durch die Gründung von xAI im Juli 2023 mit gezieltem Talent-Poaching, anschließenden öffentlichen Diffamierungskampagnen und mehreren parallelen Klagen. Die SpaceX-Brücke zu xAI mit der angekündigten Multi-Gigawatt-Rechenkapazität im All bezeichnete Altman als «business interference auf höchstem Niveau».

Bei der Cross-Examination durch Musks Anwalt Marc Toberoff musste Altman sich mehrfach Fragen zu früheren öffentlichen Aussagen stellen — insbesondere zu seiner Behauptung, das Board habe von der Microsoft-Investment-Struktur 2019 «vollständig informiert» worden sein. Toberoff legte interne E-Mails vor, in denen Altman gegenüber Brockman im November 2018 von einem «schlanken Briefing» für Holden Karnofsky und Reid Hoffman gesprochen hatte. Altman erkannte den Wortlaut an, betonte aber, das Board habe «alle entscheidenden Eckpunkte» schriftlich vorgelegt bekommen. Richterin Yvonne Gonzalez Rogers untersagte mehrere von Toberoffs Fragen zu KI-Sicherheitsrisiken mit der inzwischen mehrfach wiederholten Formel: «This is not a trial on the safety risks of artificial intelligence.»

Für die Marktbeobachter sind drei Datenpunkte aus dem Tag entscheidend. Erstens: Altman bleibt bis Donnerstag, 14. Mai, im Stand — Day 2 und 3 enthalten Fragen zur For-Profit-Konversion und zur Sutskever/Murati-Episode vom November 2023. Zweitens: Phase 2 des Verfahrens mit den eigentlichen «Remedies» beginnt am 18. Mai vor der Richterin allein, ohne Geschworene; die Haftungsfrage soll bis 21. Mai entschieden sein. Drittens: Polymarket bewegte sich am Dienstagabend bei 41 Prozent Musk-Sieg und 13 Prozent Settlement über 10 Milliarden USD — ein leichter Rückgang gegenüber Wochenbeginn, der Altmans Auftritt als netto-positiv für OpenAI interpretiert. Für CEOs und Boards mit Anbieter-Konzentration auf OpenAI bleibt die strategische Frage offen: An die 200 Milliarden USD Investorenzusagen sind explizit an die For-Profit-Struktur gekoppelt; ein Sieg Musks würde die Re-Kapitalisierung politisch und finanziell schwierig machen, ein Settlement wäre für viele Anleger der teurere, aber planbarere Pfad.

Quellen

Google · Android Show

Googlebook, Gemini Intelligence und Android 17: Googles KI-First-Plattform-Wette

12. Mai 2026

Auf der ersten Android Show I/O Edition seit zwei Jahren hat Google Android grundlegend umpositioniert: Eine neue Marken-Klammer «Gemini Intelligence» bündelt KI-Features auf Premium-Phones, Watches, Autos und Brillen — und führt mit Googlebook eine neue Laptop-Kategorie ein, die Acer, Asus, Dell, HP und Lenovo gemeinsam mit Google bauen. Android 17 bringt generative UI für Homescreen-Widgets und eine deutlich aufgewertete Gboard-Sprachsteuerung.

Hintergrund & Analyse

Sameer Samat, GM von Android, eröffnete die Show in Mountain View mit einer ungewöhnlich expliziten Strategieaussage: «Android ist die einzige Plattform, die mit demselben Modell auf Phone, Watch, Auto, XR-Brille und ab Herbst Laptop läuft.» Gemini Intelligence ist der neue Marken-Dachname für die On-Device-Plus-Cloud-KI-Funktionen auf «advanced» Android-Geräten — also Pixel-Telefone der neuesten Generation, ausgewählte Samsung-Galaxy-Modelle, Wear OS 6 sowie Android Auto in neueren Fahrzeugen. Die Trennung zu klassischen Geräten ohne die nötige NPU-Rechenleistung ist neu und marktwirtschaftlich relevant — sie definiert eine Geräte-Klasse, die Hersteller bewerben müssen, wenn sie Gemini-Premium-Features bewerben wollen.

Googlebook ist der Knaller der Veranstaltung. Eine vollständig neue Hardware-Kategorie: Android-basierte Notebooks mit Gemini Intelligence im Zentrum, koordiniert mit Acer, Asus, Dell, HP und Lenovo. Erstauslieferung Herbst 2026, Preisspanne offen, aber positioniert zwischen Chromebook und Premium-MacBook. Das Magic-Pointer-Feature ersetzt das klassische Click-Modell durch ein KI-gestütztes Auswahlsystem: Der Cursor erkennt Inhalt, schlägt Aktionen vor, antwortet auf Sprach- oder Tipp-Befehle. Vibe-coded Widgets können auf dem Sperrbildschirm und im Homescreen aus Prompts oder Sketches generiert werden — laut Demo «in unter 30 Sekunden». Heise schreibt zu Recht von einem «Chromebook-Nachfolger», auch wenn Google den Begriff vermeidet — Chromebooks bleiben formal eine separate Linie, aber die Investment-Allokation verschiebt sich klar in Richtung Googlebook.

Android 17 selbst bringt drei zentrale Veränderungen für Endnutzer und Entwickler. Erstens: Gboard Rambler — ein vollständig überarbeitetes Voice-Input-System, das mit Gemini-Modellen Füllwörter, Pausen, Wiederholungen und Selbstkorrekturen herausfiltert, bevor der Text in die Eingabezeile landet. Google adressiert damit explizit die Konkurrenz von Whisper-basierten Dictation-Startups wie Wispr Flow und Aqua Voice; Verge merkt an, dass das «schlechte Nachrichten für Dictation-Startups» sein dürfte. Zweitens: Generative UI als Plattform-Primitive — Apps können dynamische Layouts deklarieren, die von Gemini zur Laufzeit befüllt werden, inklusive eigener Widget-Generierung. Drittens: Agentic Hooks in Apps wie Maps, Phone und Photos, sodass Gemini Tasks tiefer im System ausführen kann, ohne explizite App-Wechsel.

Die strategische Klammer ist die Antwort auf zwei Bedrohungen. Erstens den ChatGPT-Atlas-Browser und OpenAIs «Super-App»-Strategie, die Google am Top-of-Funnel der Such- und Assistenz-Anfragen attackiert. Zweitens die Anthropic-Claude-Code-Welt mit Multi-Modell-Distribution über VS Code, Cursor, Cloudflare und Microsoft 365 Copilot, die Googles Developer-Tail unter Druck setzt. Mit Googlebook + Gemini Intelligence positioniert Google die eigene Hardware-Verteilung als Distributionsvorteil — wer Pixel und Googlebook hat, bekommt das ganze Gemini-Stack zuerst. Die «Personal Intelligence», die Tag-für-Tag-Kontext aus Gmail, Calendar, Drive und Photos integriert, wird als Sommer-2026-Rollout angekündigt; Google adressiert damit explizit die Lücke, die Apples generative Siri mit Verzögerung auf iOS 27 (Herbst 2026) erst füllen wird.

Für SaaS-Hersteller mit Android-Touchpoints ist Vorbereitung jetzt sinnvoll. Erstens: Google ADK 2.0 und der zugehörige Agent-SDK werden für Googlebook das primäre Distributions-Modell sein — wer eine Workspace-Integration mit Joule-Studio-, n8n- oder MCP-Hintergrund hat, sollte parallele Konnektoren für Gemini Intelligence prüfen. Zweitens: Der C2PA-Hinweis aus dem EU-AI-Act-Operationalisierungs-Paket gilt für Gemini-generierte Inhalte ebenfalls; Googles Watermarking via SynthID ist die voraussichtliche Standardlösung. Drittens: Wer im Search-Marketing-Umfeld arbeitet, muss die «Personal Intelligence»-Aufschaltung als neuen Disintermediation-Vektor planen — Gemini wird Web-Suchen häufiger durch direkt-aktionierte Antworten ersetzen.

Quellen

Enterprise-KI · SAP & N8n

SAP investiert in N8n: $5,2 Mrd. Bewertung — Berlins KI-Hoffnung wird zur Joule-Studio-Engine

12. Mai 2026

SAP hat am Dienstag eine strategische Beteiligung an N8n bekanntgegeben — kombiniert mit einer mehrjährigen kommerziellen Partnerschaft, die N8ns Workflow-Engine nativ in das Joule-Studio einbettet. Die Bewertung verdoppelt sich in weniger als einem Jahr auf 5,2 Milliarden Dollar; N8n wird damit zur höchstbewerteten KI-Firma Deutschlands. Hinter dem Deal stehen zwei strategische Wetten, die für deutsche Tech-Unternehmen interessant sind.

Hintergrund & Analyse

Die Eckdaten zuerst: SAP investiert eine nicht öffentlich genannte Summe in N8ns Erweiterungsrunde bei einer Post-Money-Bewertung von 5,2 Mrd. USD. Vor weniger als einem Jahr lag die Bewertung bei 2,5 Mrd. USD (180 Mio. USD Series C mit Highland-Europe-Lead, Juli 2025). Das Wachstum ist nicht nur Bewertungs-Inflation: N8n hat laut eigenen Angaben 2026 die 250.000 aktiven Workflows pro Monat überschritten, der monatlich wiederkehrende Umsatz ist seit Januar 2025 um Faktor sieben gewachsen. Berlin-Sitz, Open-Core-Lizenz (Sustainable Use License), 4 Millionen GitHub-Sterne — die fundamentalen KPIs unterscheiden N8n strukturell vom Aleph-Alpha-Schock von 2023.

Die strategische Logik bei SAP ist klar. CTO Philipp Herzig hatte bereits Anfang Mai auf dem SAP Sapphire angekündigt, dass das «autonomous enterprise» die Antwort auf die Salesforce-Agentforce-Operations-Welle ist. Joule Studio — SAPs Agent-Building-Environment — bekommt mit N8n eine etablierte Workflow-Engine ohne Eigenentwicklungs-Kosten und mit einer aktiven Open-Source-Community. Konkret werden N8n-Workflows nativ in Joule Studio aufrufbar; SAPs Business Data Cloud kann als Datenquelle für N8n-Knoten dienen; und SAPs Business AI Platform routet Inferenz-Anfragen aus N8n an Claude, GPT-5.5 oder das hauseigene Tabular-Foundation-Model RPT-1 (Vorhersage tabellarischer Daten, integriert nach der Prior-Labs-Übernahme — siehe unsere Reportage vom 9. Mai).

Bei N8n wiederum ist der Deal ein doppelter Boost. Erstens: Vertriebsweg in den SAP-Kundenstamm, der hierzulande den Mittelstand der Mittelständischen und alle Großkonzerne dominiert. Zweitens: Validierung der Berliner Workflow-Strategie gegenüber den US-Konkurrenten Zapier (45 Mrd. USD-Bewertung 2026), Make.com und dem indirekten Wettbewerb mit OpenAI Workspace Agents. N8ns CEO und Mitgründer Jan Oberhauser, der das Tool 2019 als Open-Source-Projekt startete, formulierte die Position so: «AI-Workflow-Orchestrierung wird das Java-Spring-Framework dieser Dekade — es muss neutral, erweiterbar und transparent sein, weil Unternehmen ihren Tech-Stack nicht einer einzigen Closed-Source-Wette unterwerfen wollen.»

Die Bewertungs-Mathematik ist konservativer als sie wirkt. Bei einem ARR im Bereich 50–80 Mio. USD ergibt 5,2 Mrd. USD ein Multiple von 65x bis 100x — hoch, aber in der Spanne anderer AI-Workflow-Tools (Cursor ~50–80x, Replit ~80x). Highland Europe, Sequoia und Lightspeed sollen die SAP-Beteiligung mit einer Erweiterungs-Runde flankiert haben; die zusätzlichen Mittel ermöglichen N8n den Aufbau eines Enterprise-SLA-Vertriebs in den USA. Bemerkenswert: Die Berliner Bundesregierung wurde laut Handelsblatt von dem Deal überrascht — eine geplante Beteiligung des KfW-Tech-Fonds kam nicht zustande, weil N8n den schnelleren SAP-Deal vorzog.

Die Lektion für deutsche Tech-Leads und PMs in SaaS-Unternehmen ist konkret. Erstens: Workflow-Engines sind die unterschätzte Achse 2026. Wer Agenten baut, baut zwangsläufig auch deren Verkettung — und das Verbindungslayer ist eine Plattform-Schicht mit hohem Lock-in-Potenzial. Zweitens: Open-Core-Modelle gewinnen gegen Closed-Source-Konkurrenten bei kritischer Infrastruktur — N8n hat es geschafft, weil die Lizenz Selbsthosting erlaubt und gleichzeitig kommerzielle Differenzierung sichert. Drittens: Der SAP-Deal verschiebt das Risiko-Profil deutscher KI-Investments — die zweite Aleph-Alpha-Erzählung ist mit N8n widerlegt; Berlin hat ein erstes nachhaltig profitables KI-Einhorn, das nicht von einem einzelnen Frontier-Modell abhängt.

Quellen

Voice-AI · Thinking Machines

Murati startet TML-Interaction-Small: Eine KI, die zuhört, während sie spricht

11. Mai 2026

Mira Muratis Thinking Machines Lab hat am Montag das erste Produkt seit Tinker (Dez 2025) vorgestellt. TML-Interaction-Small ist ein 276-Mrd-Parameter-MoE-Modell, das Audio, Video und Text in 200-ms-Mikroturns parallel verarbeitet. Die Architektur — encoder-free early fusion auf rohen Audiosignalen und 40×40-Image-Patches — bricht radikal mit der klassischen «Pipeline aus STT, LLM und TTS» und stellt sich frontal gegen OpenAI Realtime und Googles Gemini Live.

Hintergrund & Analyse

Murati kündigte das Modell am Montagabend per Blog-Post unter dem Titel «Interaction Models: A Scalable Approach to Human-AI Collaboration» an, begleitet von drei Demo-Videos auf dem YouTube-Kanal Thinking Machines Lab. Die zentrale Differenzierung: Während OpenAI Realtime, ElevenLabs Conversational und Vapi auf einer Architektur basieren, die einen «Sprache erkennen → reasonen → Sprache erzeugen»-Zyklus auf wenige hundert Millisekunden zusammenstaucht, trainiert Thinking Machines eine einzelne Transformer-Netzstruktur darauf, alle drei Tätigkeiten in 200-ms-Slices durchgehend parallel auszuführen. Das Resultat: Backchannel-Geräusche wie «mhm», «ja» und Interruptions sind nicht nachträgliche Heuristiken, sondern direkt im Modell als Verhalten verankert.

Die Architektur-Eckdaten sind dünn dokumentiert, aber instruktiv. 276 Milliarden Parameter insgesamt, davon 12 Milliarden aktiv pro Token (MoE-Routing). Encoder-free early fusion: Audiosignale werden über dMel-Repräsentation direkt als Token-Stream eingespeist; Bildinhalte als 40×40-Patches ohne Vision-Encoder; Text-Tokens parallel. Alle Komponenten werden gemeinsam von Scratch trainiert — der etablierte Ansatz, vortrainierte Whisper- oder CLIP-Encoder anzuflanschen, ist explizit verworfen. Latenz im FD-Bench V1: 0,40 Sekunden Turn-Taking, gegenüber 0,80–1,2 Sekunden bei OpenAI Realtime und Gemini Live im «high-thinking»-Modus. Im Quality-Score FD-Bench V1.5 erreicht TML-Interaction-Small 77,8 Punkte; GPT-Realtime-2.0 minimal kommt auf 45,5, Gemini-3.1-flash-live auf 46,8.

Die kommerzielle Realität ist deutlich nüchterner. Das Modell ist bisher nur als «Limited Research Preview» für Akademie-Partner zugänglich. Eine breitere API-Veröffentlichung ist für H2 2026 angekündigt. Tinker, das erste TML-Produkt (LoRA-Fine-Tuning-Cloud-API für Open-Source-Modelle), ist seit Dezember 2025 GA und bisher die einzige Umsatzquelle. Bei einer 12-Mrd-USD-Seed-Bewertung von Juli 2025, einer abgesagten Series-A bei 50 Mrd. (November 2025) und mehreren Founder-Abgängen — Barret Zoph und Luke Metz zurück zu OpenAI im Januar 2026, Andrew Tulloch mit angeblichem 1,5-Mrd-USD-Paket zu Meta im April — steht TML unter erhöhtem Druck, ein zweites Produkt mit klarem Markt-Pull zu liefern. Soumith Chintala (PyTorch-Mitgründer) ist seit März 2026 CTO; John Schulman bleibt Chief Scientist; Lilian Weng leitet Alignment.

Für Voice-AI-Wettbewerber öffnet das Modell eine neue Front. OpenAI Realtime hat mit GPT-Realtime-2 (32 USD/Mio. Audio-Input, 64 USD Output) und GPT-Realtime-Translate die Pricing-Wand heruntergesetzt; Vapi (mehr dazu im nächsten Artikel) hat soeben den 1-Mrd-Call-Meilenstein und Amazon Ring als Enterprise-Kunde gewonnen. Wenn TML-Interaction-Small mit ähnlichem Pricing und einer offenen API herauskommt, könnten die Voice-Stacks mit Cascade-Architektur (STT → LLM → TTS) — die heute die Mehrheit der produktiven Calls bedienen — strukturell unter Druck geraten. ElevenLabs hat im Februar 2026 bei 11 Mrd. USD-Bewertung 500 Mio. USD eingesammelt, gerade um diese Cascade-Optimierung weiter zu skalieren; Murati greift mit einer fundamental anderen Architektur an.

Für Product-Manager mit Voice-Features im SaaS-Stack sind drei Linien wichtig. Erstens: Wer Voice-Agents heute auf Vapi, Retell oder LiveKit baut, sollte die Cascade-Pipeline modulartrennen — falls die Full-Duplex-Welle anrollt, muss man später nicht die gesamte Voice-Tech-Stack neu schreiben. Zweitens: TML-Interaction-Small wird in der Limited Preview vor allem auf «Sales-Demo» und «Customer Onboarding» evaluiert; das sind die Use-Cases mit höchster Interruption-Rate und Empathie-Anforderung. Drittens: Die 200-ms-Latenz-Grenze wird zum neuen Industrie-Standard, gegen den klassische Voice-Tools gemessen werden — das aktuelle Industrie-Mittel liegt bei 500–800 ms, und für viele Voice-Cases ist alles über 600 ms «awkward», wie das State-of-AI-Calling-Briefing 2026 dokumentiert. Die Reportage dieser Ausgabe vertieft die Architektur-Linien, die wirtschaftliche Geometrie und die konkreten Implikationen für Voice-First-Produkte.

Quellen

Voice-AI · Vapi

Vapi schlägt 40 Konkurrenten und gewinnt Amazon Ring: 1 Milliarde Calls, $500 Mio. Bewertung

12. Mai 2026

Vapi hat am Dienstag eine 50-Mio.-USD-Series-B unter Lead von Peak XV bei 500 Mio. USD Post-Money geschlossen. Der eigentliche Coup: Amazon Ring hat im Bewertungsprozess für den Holiday-Surge-Voice-Support 40 alternative Anbieter evaluiert und sich für Vapi entschieden. Die Plattform überschritt im gleichen Quartal die 1-Milliarde-Call-Marke und prozessiert täglich 1–5 Millionen Anrufe. Was Vapi anders macht — und was das für den Enterprise-Voice-Markt heißt.

Hintergrund & Analyse

Die Vapi-Story ist atypisch für 2026er-Voice-AI-Unicorns. Statt mit einem Frontier-Modell oder einer In-House-Stimme zu konkurrieren, hat sich das Unternehmen auf das Orchestrierungs-Layer zwischen Telefon-Anschluss, Sprachmodellen und Backend-Systemen konzentriert. Voice-LLMs, ElevenLabs-Stimmen, eigene STT/TTS-Mixes, Vector-DBs für CRM-Lookups, Twilio/Plivo-Telefonie — Vapi bündelt das als verwaltete Pipeline mit unter 600 ms End-to-End-Latenz und enterprise-tauglichen SLAs. Resultat: 1 Million Entwickler haben die Plattform getestet, Enterprise-Kunden machen aber den Großteil des Umsatzes — Kavak, Instawork, New York Life, UnityAI, Cherry, Intuit. Bei 1–5 Millionen Calls am Tag und einer Industrie-Preisspanne von 0,05–0,25 USD pro Minute lässt sich ein ARR im niedrigen dreistelligen Millionenbereich grob herleiten — Vapi nennt selbst keine Zahlen.

Der Amazon-Ring-Deal ist der kommerzielle Anker. Im Q4 2025 sah sich Ring (Amazon-Tochter für Smart-Home-Sicherheit) mit einer Welle von Holiday-Season-Customer-Support-Anrufen konfrontiert — Größenordnung mehrere Millionen Tickets, klassische «hold queue 45 Minuten»-Krise. Amazon evaluierte laut Branchen-Insidern 40 Voice-AI-Anbieter inklusive AWS Lex, Microsoft Voice, eigenen Alexa-Stacks, Retell, Synthflow und LiveKit. Vapi gewann den Zuschlag mit einer dokumentierten 12-Wochen-Implementierung, geringer P99-Latenz und einer Reliability-Bilanz von 99,98 Prozent Uptime. Heute übernimmt Vapi 100 Prozent der inbound-Telefonie für Ring — das größte bekannte Single-Tenant-Voice-AI-Deployment in 2026.

Die Series-B mit 50 Mio. USD wird angeführt von Peak XV Partners (ehemals Sequoia Capital India/SEA), mit Beteiligung von Microsofts M12 (signifikant — Microsoft hat Vapi auch als Azure-Voice-Live-Marketplace-Listing aufgenommen), Kleiner Perkins und Bessemer Venture Partners. Total Funding steigt damit auf 72 Mio. USD bei einer Post-Money-Bewertung von rund 500 Mio. USD. Das ist im Vergleich konservativ: ElevenLabs hat im Februar 2026 bei 11 Mrd. USD bewertet 500 Mio. USD eingesammelt, OpenAI Realtime hat keine separate Bewertung, aber 2,1 Mrd. USD flossen 2025 insgesamt in Voice-AI-Startups (das achtfache des Vorjahres). Vapis Bewertungspunkt ist die «Pipeline-Effizienz» — das Unternehmen ist nach eigenen Angaben EBITDA-positiv im Enterprise-Segment.

Die strategische Frage für den Voice-Markt ist die Konfrontation mit dem Thinking-Machines-Modell aus Artikel 4. Vapis Pipeline-Architektur — getrennte STT, LLM, TTS — ist genau das, was Murati mit Interaction Models obsolet machen will. CEO Jordan Dearsley hat in einem Bloomberg-Interview gesagt, Vapi werde «binnen sechs Monaten Full-Duplex-Modelle als optionalen Backend-Pfad» einbinden — sprich: TML-Interaction-Small könnte als Option neben den GPT-Realtime- und Gemini-Live-Pfaden stehen. Das Geschäftsmodell bleibt dabei das Orchestrierungs-Layer, nicht das Modell selbst. Vapis Bet: Solange Enterprise-Kunden Compliance, Reliability und Telefon-Integration brauchen, ist das Layer wertvoller als das Modell darunter.

Für CEOs in Bereichen mit hohem Call-Volume (Customer Support, Sales-Outbound, Lead-Qualification, Termin-Buchung) lassen sich drei konkrete Schlüsse ziehen. Erstens: Voice-AI ist 2026 keine experimentelle Wette mehr — Ring zeigt, dass 100-Prozent-Inbound-Substitution bei einem Konzern Amazon-Größe technisch und kommerziell machbar ist. Zweitens: Die Voice-Vendor-Wahl sollte sich auf Layer mit Modell-Portabilität fokussieren, nicht auf einzelne Modell-Anbieter — die Architektur wird sich in den nächsten 12 Monaten zweimal grundlegend verschieben. Drittens: Die kostenseitige Realität ist deutlich unter Hot-Take-Niveau: 0,05–0,25 USD/Minute heißt für ein Support-Team mit 10.000 Calls/Monat à 5 Minuten etwa 2.500–12.500 USD/Monat Modell-Kosten — das ist eine andere Größenordnung als die häufig zitierten Hyperscale-Compute-Zahlen.

Quellen

Sicherheit · Hugging Face

244.000 Downloads: Falsches OpenAI-Repo auf Hugging Face verteilte Infostealer-Malware

12. Mai 2026

Ein bösartiges Hugging-Face-Repository unter dem Namen «Open-OSS/privacy-filter» hat sich als OpenAI-Release ausgegeben und in unter 18 Stunden 244.000 Downloads sowie 667 Likes auf die Trending-Liste geschoben. Der eingebettete `loader.py` führte eine getarnte PowerShell-Kette aus, die einen Rust-basierten Infostealer auf Windows-Hosts deployte. Sicherheitsforscher von HiddenLayer identifizierten sechs weitere Repos mit identischer Loader-Logik.

Hintergrund & Analyse

Der Angriff folgt einem zunehmend professionalisierten Muster: Typosquatting der OpenAI-Marke, vollständige Kopie der originalen Model-Card und ein scheinbar harmloser Loader, der erst nach Initialisierung den Infektionspfad öffnet. Der Code in `loader.py` begann mit unverdächtigem Boilerplate-Verhalten, das einem normalen AI-Model-Loader entspricht. Erst beim eigentlichen Modell-Download wurde ein Skript ausgeführt, das SSL-Verifizierung deaktivierte, eine base64-codierte URL zu jsonkeeper.com dekodierte und die Remote-Payload-Instruktionen an PowerShell weitergab. Auf Windows-Hosts führte das zu einem Rust-Infostealer, der Browser-Profile (Chromium- und Firefox-basiert), Discord-Local-Storage, Krypto-Wallets, FileZilla-Konfigurationen und System-Metadaten exfiltrierte.

Die Reichweite ist bemerkenswert: 244.000 Downloads in weniger als 18 Stunden, was den Account auf den ersten Platz der Trending-Liste schob. HiddenLayer betont in seiner Analyse, dass die Like-Zahl (667) potenziell von den Angreifern selbst manipuliert sein könnte — Hugging Face hat keinen Sybil-Schutz im Stil von App-Store-Bewertungen. Die echten Downloads wurden überwiegend in den USA und Westeuropa registriert, mit auffälligen Peaks aus Indien und Brasilien — Regionen, in denen Hobby-Entwickler über Suchbegriffe wie «OpenAI Privacy Filter download» auf die Trending-Liste stoßen.

Hugging Face hat das Repository nach Meldung durch HiddenLayer innerhalb von vier Stunden gesperrt, parallel sechs weitere Accounts mit identischer Loader-Signatur deplatformt. CEO Clément Delangue kündigte in einem öffentlichen Post an, dass die Plattform ab Q3 2026 Pflicht-Scans aller hochgeladenen Python-Files mit einer Kombination aus Statisch-Analyse und Sandbox-Execution einführen wird — eine Maßnahme, die HiddenLayer und andere Sicherheitsforscher seit über einem Jahr fordern. Die Maßnahme wird laut Delangue 2 bis 4 Sekunden zusätzliche Latenz bei jedem Upload bedeuten — ein Trade-off, den die Plattform unter dem Eindruck der Vorfälle 2025/2026 jetzt akzeptiert.

Der Vorfall reiht sich in eine längere Linie ein. Im November 2025 hatte JFrog 100 schädliche ML-Modelle auf Hugging Face dokumentiert; im März 2026 entdeckte ReversingLabs Pickle-basierte Backdoors in Stable-Diffusion-Forks; im April 2026 fand TrailWise Token-Stealer in vermeintlich finanzkompatiblen Llama-Forks. Das Muster: Hugging Face ist das De-facto-Verteilungs-Repository für AI-Modelle, fehlende Provenance-Garantien machen die Plattform aber zum bevorzugten Angriffsvektor für Supply-Chain-Attacken. Heise zog am Dienstag eine direkte Parallele zum TanStack-Supply-Chain-Angriff vom 11. Mai (42 NPM-Pakete kompromittiert), bei dem ähnliche Loader-Pattern für Browser-Sessions und Discord-Token-Klau zum Einsatz kamen.

Für DevSecOps-Verantwortliche in SaaS-Unternehmen ergibt sich eine klare Maßnahmen-Liste. Erstens: Hugging-Face-Downloads in produktive Pipelines dürfen nicht ohne SBOM-Vergleich und Hash-Verifikation laufen — die offiziellen OpenAI-, Anthropic- und Meta-Repositories sind eindeutig identifizierbar, Typosquats nicht. Zweitens: Die `transformers`-Library und `huggingface_hub`-Clients sollten in CI/CD mit `--disable-pickle` und expliziten Allowlists laufen; `safetensors` ist der Pflicht-Default für jeden externen Modell-Import. Drittens: Endpoint-Detection auf Entwickler-Maschinen sollte explizit nach PowerShell-Aufrufen aus Python-Loadern alarmieren — ein Muster, das in legitimer ML-Praxis schlicht nicht vorkommt.

Quellen

Infrastruktur · xAI

xAI hat jetzt 46 ungenehmigte Gasturbinen in Mississippi — NAACP-Klage spitzt sich zu

11. Mai 2026

Trotz laufender Bundesklage der NAACP und mehrerer Cease-and-Desist-Forderungen aus Memphis und Southaven hat xAI zwischen dem 25. März und 2. Mai 2026 weitere 19 mobile Gasturbinen am Mississippi-Standort installiert — auf insgesamt 46. Die Mississippi Department of Environmental Quality bestätigte die Zahl am Wochenende. Das Plant könnte mehr als 1.700 Tonnen Stickoxide, 500 Tonnen CO und 19 Tonnen Formaldehyd pro Jahr emittieren.

Hintergrund & Analyse

Der NAACP hatte am 22. April 2026 Bundesklage gegen xAI und seine Tochter MZX Tech vor dem U.S. District Court for the Northern District of Mississippi eingereicht. Der Vorwurf: Verstoß gegen den Clean Air Act, Operationsbetrieb von «temporary-mobile» Methangas-Turbinen ohne die nach Mississippi-Recht zwingenden Air-Permits. Die Klage fordert (a) gerichtliche Feststellung des Gesetzesverstoßes, (b) Untersagung des weiteren Betriebs ohne Permits, (c) Einbau der nach EPA-Standards «best available control technology» und (d) tageweise Bußgelder rückwirkend ab Inbetriebnahme.

Die Reaktion von xAI ist die Verschärfung statt Deeskalation. Zwischen Klage-Einreichung am 22. April und dem 2. Mai installierte xAI 19 weitere Turbinen — eine Verdoppelung in sechseinhalb Wochen. Mississippi DEQ-Sprecherin Adrienne Conklin erklärte, die Behörde «evaluiere die Situation» — was praktisch heißt, dass das xAI-Standort weiterläuft, während Permit-Verfahren prozedural ihren Lauf nehmen. xAI hatte im April mehrere Turbinen aus dem Memphis-Standort (Tennessee-Seite) verlagert, nachdem das Southern Environmental Law Center und der Memphis Mayor öffentliche Aufmerksamkeit auf die Luftqualitäts-Daten gerichtet hatten — die Verlagerung nach Southaven, Mississippi, war ein bewusster Versuch, weniger restriktiven State-Air-Quality-Regulatoren auszuweichen.

Die Emissions-Zahlen sind massiv. 46 Turbinen mit zusammen geschätzten 700 MW Erzeugungsleistung emittieren laut SELC-Berechnungen bis zu 1.700 Tonnen NOx pro Jahr — ein vielfaches der durchschnittlichen jährlichen Stickoxid-Last für ein Kraftwerk dieser Größe in Tennessee oder Mississippi. Weitere geschätzte Emissionen: 180 Tonnen Feinstaub PM2.5, 500 Tonnen CO und 19 Tonnen Formaldehyd. Das Plant liegt im DeSoto County, mit überwiegend afroamerikanischen Wohngebieten in 1–2 Meilen Entfernung — die NAACP argumentiert dabei zentral mit Environmental-Justice-Aspekten unter Title VI des Civil Rights Acts.

Der Kontext ist breiter als nur xAI. Die Maryland-FERC-Beschwerde vom 7. Mai dokumentierte für PJM-Interconnection-Gebiet 30 GW neuer Rechenzentrums-Last bis 2030, von der mehr als zwei Drittel auf Hyperscale-Kunden entfällt — und die Kosten überwiegend auf Residential-Stromkunden umgelegt werden. xAI sitzt am extremen Ende dieser Dynamik: Stromnetz-Anschluss zu langsam, also baut Musk Gas-Spitzenlast-Kraftwerke vor Ort, ohne Permits abzuwarten. Memphis Light Gas & Water hatte bereits Anfang 2026 angekündigt, eine 150-MW-Substation für xAI bis 2027 zu errichten — eine Wartezeit, die xAI offensichtlich nicht akzeptiert.

Für Tech-Verantwortliche, die Anbieter-Verträge mit xAI, SpaceXAI oder Grok-Distribution prüfen, sind drei Punkte relevant. Erstens: Das Reputations-Risiko ist real. Anthropics 6.-Mai-Compute-Deal mit xAI (Mietung der gesamten Colossus-1-Kapazität, 222.000 GPUs, 300 MW) wurde von Simon Willison und ESG-Investoren explizit mit Bezug auf Memphis-Luftqualität kritisiert. Zweitens: Die EPA und EJ-Klagen können in den nächsten zwölf Monaten zu temporären Shutdowns führen — wer kritische Inferenz-Workloads auf Colossus-1-Hardware laufen lässt, sollte Disaster-Recovery-Pläne aktualisieren. Drittens: Die Memphis/Southaven-Story setzt einen Präzedenzfall für die Geo-Hyperscaler-Allokation — Bundesstaaten mit aktiverer Air-Quality-Regulierung werden tendenziell teurer, aber risikoärmer.

Quellen

Reportage

Voice AI auf Full-Duplex: Warum 200 Millisekunden die nächste Plattform definieren

Mira Muratis Thinking Machines hat am Montag eine Architektur vorgestellt, die das klassische «Sprache erkennen, denken, Sprache erzeugen»-Modell der Voice AI grundlegend angreift. Gleichzeitig schließt Vapi ein 500-Mio-Bewertungs-Round mit Amazon Ring als Anker-Kunde. Was passiert da gerade — und welche Voice-Strategie macht für SaaS-CEOs und PMs in den nächsten 12 Monaten Sinn?

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

PageIndex

Vectorless, reasoning-basierte RAG-Engine, die lange PDF-Dokumente als hierarchischen Baum-Index aufbereitet und mit LLM-Reasoning navigiert.

Verzichtet komplett auf Embeddings, Chunking und Vektor-Datenbanken — stattdessen baut der Agent eine semantische Tabelle des Inhalts und reasoned sich iterativ durch die Hierarchie. Erreicht laut Benchmark 98,7 Prozent Genauigkeit auf FinanceBench und ist als gehostete API plus Open-Source-Variante (VectifyAI/PageIndex auf GitHub) verfügbar.

Dev · RAG-Infrastruktur · Mai 2026

White Circle

Kontroll-Layer zwischen KI-Modellen und Unternehmen: Erkennt Halluzinationen, Prompt-Injection, Modell-Drift und Policy-Verstöße in Echtzeit.

Pariser Startup, das am 12. Mai 11 Mio. USD Seed-Runde abschloss — Investoren u.a. Romain Huet (OpenAI), Durk Kingma (Anthropic), Guillaume Lample (Mistral), Thomas Wolf (Hugging Face). Gründer Denis Shilov wurde 2024 viral, nachdem er einen universellen Jailbreak-Prompt für alle Frontier-Modelle veröffentlichte. White Circle prozessiert bereits über 1 Mrd. API-Requests, Kunden inkl. Lovable.

Sicherheit · KI-Governance · Mai 2026

Open Vibe

Interaktiver Coding-Kurs mit Claude Code als Tutor — Teilnehmer bauen Full-Stack-SaaS-Anwendungen, während die KI Schritt für Schritt erklärt.

Entwickelt vom Team hinter dem Open-Source-Framework Wasp. Version 1.0 ist live, MIT-Lizenz, Community-getrieben. Curriculum in zwei Phasen: Phase 1 Web-App-Grundlagen, Phase 2 Aufbau eines SaaS auf Basis der hauseigenen «Open SaaS»-Vorlage. Empfohlene Geschwindigkeit zehn Wochen à 6 Stunden, am Product-Hunt-Launchday 12. Mai #2 in seiner Kategorie.

Education · Coding · 12. Mai 2026

OpenJobs AI

End-to-End-autonomer KI-Recruiter: Identifiziert Kandidaten, führt Erstkontakt durch und übernimmt das Pre-Screening ohne menschliches Eingreifen.

Am 11. Mai auf Product Hunt gelauncht und sofort als #2 in der Kategorie «Hiring Software» platziert. Die Plattform automatisiert die Pipeline-Schritte, die laut LinkedIn-Daten 70 Prozent der Recruiter-Zeit binden: Sourcing, Outreach-Personalisierung, Calendar-Koordination, Screening-Calls. Adressiert ausdrücklich Mid-Market-Tech-Companies mit 50–500 Mitarbeitern.

Business · HR-Automation · 11. Mai 2026

Kelviq

Unified-Revenue-Platform für SaaS und KI-Anbieter: Bündelt Zahlungsabwicklung, Usage-basiertes Billing, Tax-Compliance und Merchant-of-Record-Services.

Beim Product-Hunt-Launch am 12. Mai 2026 mit dem Versprechen «135+ Währungen und lokale Zahlungsmethoden» plus globale Tax-Haftung übernommen. Adressiert die typische Lücke zwischen Stripe-Plain-Billing und Enterprise-Erfordernissen wie nutzungsbasiertem Metering, Feature-Gating und Compliance-getriebenem Checkout. Direkt-Konkurrent zu Lemon Squeezy, Paddle und Polar.

Business · Monetarisierung · 12. Mai 2026

HeyNews

Newsletter-Drafting-Tool, das aus dem eigenen Archiv den persönlichen Schreibstil lernt und «publish-ready»-Drafts generiert.

Auf Product Hunt am 12. Mai 2026 gelauncht. Die Differenzierung: Statt generische Newsletter-Templates zu nutzen, analysiert das Modell die letzten 20–50 Ausgaben des eigenen Newsletters für Ton, Struktur und Section-Patterns. Curiert Stories aus hunderten Quellen und draftet die Ausgabe in Minuten. 14 Tage Free Trial, danach Tier-basiertes Pricing zwischen 19 und 199 USD/Monat.

Produktivität · Schreiben · 12. Mai 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Tutorial

Connect Claude to ANY Tool | Full Tutorial

Tech With Tim · 12:47

Tim Ruscica zeigt am Beispiel von MCP-Servern und externen APIs, wie sich Claude mit beliebigen Drittanbieter-Tools verbinden lässt — von Datenbanken über GitHub bis zu eigenen Backend-Endpoints. Praxisnah mit Live-Coding und Fehlerdiagnose.

Tutorial

Ex-OpenAI-Chefin zeigt die Zukunft von KI: Interaction Models von Thinking Machines uvm.

Digitale Profis · 10:03

Deutsche Aufbereitung der drei wichtigsten KI-News der Woche: Murati launcht Thinking Machines Interaction Models, das SAP/N8n-Deal-Verständnis aus europäischer Perspektive und die Cybersecurity-Verschiebung Daybreak vs. Mythos. Knapp, gut strukturiert, in deutscher Sprache.

Ausgabe vom 13. Mai 2026

Altman vor Gericht: «Musk wollte 90 Prozent» und ein «hair-raising»-Erbschaftsmoment

Googlebook, Gemini Intelligence und Android 17: Googles KI-First-Plattform-Wette

SAP investiert in N8n: $5,2 Mrd. Bewertung — Berlins KI-Hoffnung wird zur Joule-Studio-Engine

Murati startet TML-Interaction-Small: Eine KI, die zuhört, während sie spricht

Vapi schlägt 40 Konkurrenten und gewinnt Amazon Ring: 1 Milliarde Calls, $500 Mio. Bewertung

244.000 Downloads: Falsches OpenAI-Repo auf Hugging Face verteilte Infostealer-Malware

xAI hat jetzt 46 ungenehmigte Gasturbinen in Mississippi — NAACP-Klage spitzt sich zu

Voice AI auf Full-Duplex: Warum 200 Millisekunden die nächste Plattform definieren

Tool-Radar

Aus der Werkstatt