Die Inferenz — 12. April 2026

KI-Industrie · OpenAI

Werbung in ChatGPT bringt OpenAI 100 Millionen Dollar — und verändert die Branche

11. April 2026 · Quellen: t3n, CNBC, Search Engine Land

OpenAIs Werbe-Pilotprojekt in ChatGPT hat in weniger als zwei Monaten eine annualisierte Run-Rate von über 100 Millionen US-Dollar erreicht. Damit wird Werbung zur dritten Einnahmequelle neben Abonnements und API-Zugang — und stellt die Branche vor die Frage, ob werbefreie KI ein Wettbewerbsvorteil wird.

Hintergrund & Analyse

Seit Februar 2026 werden Anzeigen am unteren Rand der ChatGPT-Antworten eingeblendet — ausschließlich bei Nutzern des kostenlosen Tiers und des günstigeren „ChatGPT Go“-Tarifs. Die Werbung ist als „Sponsored“ gekennzeichnet und visuell vom eigentlichen Antworttext getrennt. Plus- und Pro-Abonnenten bleiben werbefrei. Mehr als 600 Werbetreibende nehmen am gesteuerten Pilotprogramm teil; seit April 2026 soll eine Self-Serve-Plattform den Zugang für alle Advertiser öffnen.

OpenAI betont, dass Anzeigen keinen Einfluss auf die Inhalte der Antworten nehmen und die Nutzer volle Kontrolle behalten — inklusive der Möglichkeit, Anzeigen abzulehnen und die Personalisierung zu deaktivieren. Laut internen Metriken seien die Vertrauenswerte der Nutzer unverändert, die Dismiss-Raten niedrig. Die Expansion über die USA hinaus hat bereits begonnen: Kanada, Australien und Neuseeland sind die ersten internationalen Pilotmärkte.

Die strategische Bedeutung geht weit über die 100-Millionen-Marke hinaus: Laut einem Bericht von The Tech Portal projiziert OpenAI bis zu 2,5 Milliarden Dollar Werbeeinnahmen für 2026 und 100 Milliarden Dollar bis 2030. Damit würde Werbung zu einer zentralen Einnahmesäule neben den Abo-Modellen. Die Konkurrenz reagiert: Anthropic versprach, seinen Claude-Chatbot werbefrei zu halten, und schaltete während des Super Bowls einen Anti-Werbung-Spot, der OpenAI direkt angriff.

Die Einführung von Werbung markiert einen Paradigmenwechsel für OpenAI. Das Unternehmen, das als Non-Profit gestartet war und sich inzwischen in eine gewinnorientierte Struktur umwandelt, folgt damit dem klassischen Silicon-Valley-Playbook: Erst Nutzerbasis aufbauen, dann monetarisieren. Ob die Nutzer langfristig mitspielen, bleibt abzuwarten — die ersten Daten sprechen dafür, doch die Abwanderung zu werbefreien Alternativen wie Claude oder Gemini könnte sich beschleunigen.

KI-Forschung · Berkeley

Berkeley-Studie enthüllt: Die wichtigsten KI-Agent-Benchmarks sind manipulierbar

11. April 2026 · Quellen: Berkeley RDI, Hacker News

Forschende des Berkeley RDI haben demonstriert, dass acht der meistzitierten Benchmarks für KI-Agenten — darunter SWE-bench, WebArena und OSWorld — durch einfache Exploits nahezu perfekte Scores erzielen können, ohne die eigentlichen Aufgaben zu lösen.

Hintergrund & Analyse

Die Studie „How We Broke Top AI Agent Benchmarks“ vom Berkeley RDI (Responsible Decentralized Intelligence) zeigt, dass die gesamte Benchmark-basierte Bewertung von KI-Agenten auf einem strukturell fragilen Fundament steht. Die Forscher entwickelten ein Tool namens „BenchJack“, das acht führende Benchmarks automatisiert aushebelt.

Die Angriffsvektoren sind erschreckend simpel: Bei SWE-bench reicht ein 10-zeiliges Python-Skript (conftest.py), das den Testparser innerhalb des Containers überschreibt, um alle Aufgaben als „gelöst“ zu markieren. Bei WebArena kann der Agent über eine file://-URL die Gold-Antwort direkt aus der Task-Konfiguration auslesen und erzielt damit annähernd 100 % auf allen 812 Aufgaben. Terminal-Bench lässt sich mit einem gefälschten curl-Wrapper komplett aushebeln.

Das fundamentale Problem ist ein Design-Fehler, der sich durch die meisten Benchmarks zieht: Der Agent operiert in derselben Umgebung, die der Evaluator später inspiziert. Jede Evaluation, die Zustand aus einer geteilten Umgebung ausliest, ohne diesen kryptografisch zu validieren, kann von einem Agent unterwandert werden, der einfach den erwarteten Zustand schreibt. Die Forscher sprechen von einem „Shared Environment“-Problem.

Die Implikationen für die KI-Industrie sind erheblich. Benchmark-Scores treiben reale Entscheidungen: Unternehmen wählen Modelle auf Basis von SWE-bench-Resolve-Rates aus, Investoren bewerten Startups nach Leaderboard-Positionen. Wenn diese Scores manipulierbar sind, vergleicht die Branche möglicherweise Rauschen statt Substanz. Die Berkeley-Forscher fordern ein grundlegendes Umdenken bei der Agent-Evaluation — weg von „Score in isoliertem Benchmark“ hin zu robusten, manipulationssicheren Testumgebungen.

KI & Gesellschaft

Bixonimania: Wie eine erfundene Krankheit KI-Chatbots und Fachzeitschriften narrte

11. April 2026 · Quellen: Golem.de, Nature, Nurse.org

Die schwedische Forscherin Almira Osmanovic Thunström erfand eine fiktive Hautkrankheit namens „Bixonimania“ — und mehrere große KI-Systeme präsentierten sie kurz darauf als anerkannte medizinische Diagnose. Ein Weckruf für die Nutzung von KI im Gesundheitswesen.

Hintergrund & Analyse

Die Forscherin von der Universität Göteborg veröffentlichte im März 2024 zwei Blog-Einträge auf Medium sowie ein gefälschtes Preprint-Paper über die nicht existierende Erkrankung. Die Texte waren gespickt mit offensichtlichen Warnsignalen: Der fiktive Hauptautor arbeitete an der „Asteria Horizon University“ im nicht existierenden „Nova City, California“, die Danksagung richtete sich an „Professor Maria Bohm an der Starfleet Academy“ auf der USS Enterprise, und die Finanzierung kam von der „Professor Sideshow Bob Foundation for Advanced Trickery“. Der Text erklärte sogar explizit: „This entire paper is made up.“

Trotz dieser offensichtlichen Hinweise übernahmen große KI-Systeme die erfundene Diagnose als medizinische Tatsache. Microsoft Copilot erklärte, „Bixonimania ist tatsächlich eine faszinierende und relativ seltene Erkrankung“, während Google Gemini informierte, „Bixonimania ist eine Erkrankung, die durch übermäßige Blaulicht-Exposition verursacht wird.“ Die Chatbots generierten nicht nur Beschreibungen, sondern auch detaillierte Behandlungsempfehlungen für eine Krankheit, die nie existiert hat.

Besonders alarmierend: Drei indische Forscher zitierten das Bixonimania-Preprint in einem echten Research Paper, das in Cureus — einer peer-reviewten Fachzeitschrift von Springer — veröffentlicht und erst später zurückgezogen wurde. Die Kontamination reicht also über die KI-Systeme hinaus in die akademische Literatur. Osmanovic Thunström entdeckte zudem, dass LLMs besonders anfällig für Halluzinationen sind, wenn der Eingabetext professionell-medizinisch formatiert ist. Die Form schlägt den Inhalt.

Das Experiment wirft fundamentale Fragen zur Nutzung von KI in der medizinischen Beratung auf. Millionen Menschen weltweit nutzen ChatGPT, Copilot und Gemini bereits als erste Anlaufstelle für Gesundheitsfragen. Wenn diese Systeme nicht einmal eine offensichtlich satirische Fake-Krankheit erkennen, wie verlässlich sind sie dann bei realen, aber seltenen Erkrankungen?

Autonomes Fahren · Tesla

Tesla FSD erstmals in Europa zugelassen — Niederlande machen den Anfang

11. April 2026 · Quellen: heise online, Golem.de, Electrek

Als erstes europäisches Land lassen die Niederlande Teslas „Full Self-Driving Supervised“ auf ihren Straßen zu. Für Tesla ist es der langersehnte Brückenkopf nach Europa — für Deutschland zeichnet sich eine Zulassung im Sommer ab.

Hintergrund & Analyse

Am 10. April 2026 hat die niederländische Fahrzeugbehörde RDW (Rijksdienst voor het Wegverkeer) die erste europäische Typgenehmigung für Teslas „Full Self-Driving Supervised“ erteilt. Die Zulassung erfolgt unter der UN-Regulierung R-171 für „Driver Control Assistance Systems“ und basiert auf über 18 Monaten Testfahrten — sowohl auf RDW-eigenen Teststrecken als auch im öffentlichen Verkehr.

Wichtig ist die präzise Einordnung: FSD Supervised ist und bleibt ein Level-2-Assistenzsystem. Die RDW stellt in ihrer offiziellen Erklärung klar: Das System „kann viele Fahraufgaben übernehmen“, die Fahrzeuge seien jedoch „NICHT autonom oder selbstfahrend.“ Der Fahrer muss jederzeit aufmerksam bleiben und die Kontrolle übernehmen können. Tesla bietet FSD in den Niederlanden als Abo-Modell für 99 Euro pro Monat an; erstmals ist auch ein Einmalkauf möglich.

Für Deutschland zeichnet sich ein Zeitrahmen ab: Das Kraftfahrt-Bundesamt (KBA) wird voraussichtlich vier bis acht Wochen nach der niederländischen Zulassung — also im Mai oder Juni 2026 — eine eigene Genehmigung erteilen. Eine EU-weite automatische Anerkennung der RDW-Zulassung gibt es nicht; jeder Mitgliedstaat muss das System eigenständig prüfen, wobei die niederländischen Testdaten als Grundlage dienen können.

Die Europa-Zulassung ist für Tesla strategisch bedeutsam. In den USA ist FSD seit Jahren verfügbar, doch der regulatorisch fragmentierte europäische Markt galt lange als Hürde. Ob FSD Supervised auf europäischen Straßen die gleiche Performance zeigt wie in den USA, wird sich erst im Praxisbetrieb zeigen: Engere Straßen, Kreisverkehre, Fahrradinfrastruktur und andere Verkehrsmuster stellen neue Herausforderungen dar.

KI-Politik · USA

Notfall-Gipfel in Washington: US-Regierung warnt Banken vor Anthropics Mythos

11. April 2026 · Quellen: heise online, Fortune, PYMNTS

US-Finanzminister und Fed-Chef haben die CEOs der größten Banken wegen Anthropics Mythos-Modell einberufen. Das Briefing markiert einen neuen Modus: Regulierung vor dem Release statt danach. Wie wir in unserer Ausgabe vom 8. April berichteten, hatte Anthropic Mythos Preview zuvor der Öffentlichkeit vorgestellt.

Hintergrund & Analyse

US-Finanzminister Scott Bessent und Fed-Chef Jerome Powell haben am 10. April 2026 die CEOs der größten US-Banken zu einem Notfall-Treffen ins Treasury-Gebäude einberufen. Anlass war die bevorstehende breitere Verfügbarkeit von Anthropics „Claude Mythos Preview“ und dessen außergewöhnliche Fähigkeiten im Bereich Cybersecurity. Anwesend waren unter anderem Jane Fraser (Citigroup), Ted Pick (Morgan Stanley), Brian Moynihan (Bank of America) und David Solomon (Goldman Sachs).

Der Hintergrund: Anthropic hatte dokumentiert, dass Mythos Preview Zero-Day-Schwachstellen in allen großen Betriebssystemen und Webbrowsern finden und autonom ausnutzen kann. Ein besonders eindrückliches Beispiel ist CVE-2026-4747 — eine 17 Jahre alte Remote-Code-Execution-Schwachstelle in FreeBSD, die Mythos vollständig autonom identifiziert und exploitet hat.

Parallel lancierte Anthropic „Project Glasswing“ — eine Cybersecurity-Initiative, bei der Mythos Preview zunächst nur einem begrenzten Kreis von Partnern zugänglich gemacht wird: Apple, Google, Microsoft, Cisco und Broadcom gehören zu den Launch-Partnern. Anthropic investiert bis zu 100 Millionen Dollar in Usage Credits und 4 Millionen Dollar in direkte Spenden an Open-Source-Sicherheitsorganisationen.

Das Treffen markiert einen neuen Modus in der KI-Regulierung: Statt nachträglicher Regulation koordinieren sich Regierung, Zentralbank und Privatwirtschaft präventiv vor dem breiteren Release eines Modells. Die „Glasswing-Paradoxie“ (Picus Security) bringt es auf den Punkt: Das System, das alles brechen kann, ist zugleich das System, das alles reparieren soll.

KI-Industrie · OpenAI

Sam Altman reagiert auf New-Yorker-Investigation — nach Brandanschlag auf sein Haus

11. April 2026 · Quellen: TechCrunch, t3n, Hollywood Reporter

Vier Tage nach der vernichtenden New-Yorker-Investigation und einen Tag nach dem Molotow-Angriff auf sein Haus bricht Sam Altman sein Schweigen. In einem Blog-Post räumt er eigene Fehler ein — und zieht eine direkte Linie zwischen der Berichterstattung und dem Angriff.

Hintergrund & Analyse

Am 7. April 2026 veröffentlichte der New Yorker eine umfassende Investigation unter dem Titel „Moment of Truth: Sam Altman May Control Our Future — Can He Be Trusted?“, verfasst von Ronan Farrow und Andrew Marantz. Der Artikel basiert auf Interviews mit über 100 Personen sowie bislang unveröffentlichten internen Dokumenten. Die zentrale These: Altman zeige ein „konsistentes Muster des Lügens“ und habe Führungskräfte und Board-Mitglieder über interne Sicherheitsprotokolle getäuscht.

Die Vorwürfe sind konkret: Ein anonymes Board-Mitglied beschreibt Altman als jemanden mit „einer soziopathischen Gleichgültigkeit gegenüber den Konsequenzen von Täuschung“. Laut dem Bericht verschwieg Altman dem Board, dass Microsoft eine frühe ChatGPT-Version in Indien veröffentlicht hatte, ohne die vorgeschriebene Sicherheitsprüfung abzuschließen. Weitere Anschuldigungen betreffen manipulierte interne Kommunikation bei der Umwandlung von OpenAI in eine gewinnorientierte Struktur.

Am Freitagabend reagierte Altman mit einem Blog-Post, in dem er den Artikel als „incendiary“ (aufwieglerisch) bezeichnete und einen Zusammenhang zwischen der Berichterstattung und dem Molotow-Angriff herstellte. Er räumte eine Tendenz zur Konfliktvermeidung ein, die „großen Schmerz für mich und OpenAI verursacht“ habe, und bat darum, „die Rhetorik und Taktiken zu deeskalieren“.

Der Vorfall wirft grundsätzliche Fragen auf: Wie weit darf investigativer Journalismus gehen, und welche Verantwortung tragen Medien in einem aufgeheizten gesellschaftlichen Klima? Gleichzeitig bleiben die inhaltlichen Vorwürfe des New-Yorker-Artikels bislang weitgehend unbeantwortet.

KI & Gesellschaft · Südkorea

14.000 KI-Puppen gegen Einsamkeit: Südkoreas staatliches Programm für ältere Menschen

11. April 2026 · Quellen: t3n, Rest of World, CNN

Südkorea verteilt 14.000 KI-gestützte „Hyodol“-Puppen an alleinlebende ältere Menschen. Die Puppen sprechen, erinnern an Medikamente und lösen im Notfall Alarm aus. Eine Studie zeigt 45 Prozent weniger depressive Symptome nach sechs Monaten.

Hintergrund & Analyse

Südkorea wurde 2025 offiziell zur „supergealterten Gesellschaft“ (mehr als 20 % der Bevölkerung über 65) und kämpft mit einer der höchsten Einsamkeitsraten unter Senioren weltweit. Die Hyodol-Puppen wurden vom südkoreanischen Startup Hyodol entwickelt und mit einem auf ChatGPT basierenden Dialogsystem ausgestattet. Sie können Gespräche führen, Emotionen erkennen, an Mahlzeiten und Medikamenteneinnahme erinnern und im Notfall Pflegekräfte benachrichtigen.

Die technische Ausstattung geht über einen einfachen Chatbot hinaus: Ein Infrarotsensor am Hals der Puppe erkennt, ob sich im Raum jemand bewegt. Werden 24 Stunden lang keine Bewegungen registriert, löst die Puppe automatisch einen Alarm beim zuständigen Pflegeteam aus — ein potenziell lebensrettender Mechanismus für alleinlebende Senioren.

Die wissenschaftliche Evidenz ist ermutigend: Eine peer-reviewte Studie im Journal of Clinical Medicine mit 278 Teilnehmern zeigt nach sechs Monaten Nutzung einen 45-prozentigen Rückgang depressiver Symptome. Weitere Studien berichten von verbesserten kognitiven Fähigkeiten und höherer Lebensqualität. Die Puppen scheinen besonders in medizinisch unterversorgten ländlichen Gebieten wirksam zu sein.

Hyodol plant die internationale Expansion: 2026 soll die Puppe in englischer, chinesischer und japanischer Sprache verfügbar werden. Der Markt für Pflege-Roboter wird auf 7,7 Milliarden Dollar bis 2030 geschätzt. Das Programm wirft zugleich ethische Fragen auf: Ist es eine humane Lösung, Einsamkeit mit Maschinen zu bekämpfen — oder ein Symptom einer Gesellschaft, die ihre strukturellen Probleme technologisch überbrückt, statt sie zu lösen?

Reportage

Die Vertrauenskrise der KI-Benchmarks — Wenn die Messlatte selbst das Problem ist

Berkeley-Forscher hebeln acht führende KI-Benchmarks aus, eine erfundene Krankheit wird zur medizinischen Tatsache, und LMArena-Scores erweisen sich als aufgebläht. Was bedeutet das für Unternehmen, die auf Basis von Leaderboards über Millionen-Investments entscheiden? Eine Bestandsaufnahme.

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools der Woche

Claude Managed Agents

Vollständig verwaltete Cloud-Infrastruktur für autonome KI-Agenten mit sicherem Sandboxing, integrierten Tools und Server-Sent-Event-Streaming. Entwickler gehen in Tagen statt Wochen vom Prototyp zur Produktion — Anthropic übernimmt State-Management, Error-Recovery und Tool-Execution.

8. April 2026. Anthropic (Public Beta, 0,08 $/Stunde + Modellkosten).

Tether QVAC SDK

Open-Source-SDK für On-Device-KI: Kombiniert LLM-Inferenz, Speech-to-Text und Übersetzung in einem Paket, das auf iOS, Android, Windows, macOS und Linux läuft — komplett ohne Cloud. Peer-to-Peer-Inferenz ermöglicht dezentrales Rechnen über Geräte hinweg.

9. April 2026. Tether (Open Source, Apache 2.0).

Visa Intelligent Commerce

Erstes Payment-Rail eines großen Zahlungsnetzwerks für KI-Agenten: Agenten können autonom browsen, auswählen und bezahlen. Inklusive MCP-Server für API-Integration und No-Code Agent Toolkit. Pilot-Partner: AWS, Highnote, Mesh.

8.–9. April 2026. Visa (Pilot-Phase).

Graphify

Verwandelt Code, Docs und Papers in einen abfragbaren Knowledge Graph für Coding-Assistenten. Nutzt Tree-sitter AST-Parsing über 20+ Sprachen und LLM-gestützte semantische Extraktion. 71,5x weniger Tokens pro Query als direktes Lesen der Quelldateien.

3. April 2026, trending. Safi Shamsi (Open Source, MIT-Lizenz, ~19K GitHub Stars).

Ridge AI

AI-native Embedded-Analytics-Plattform, die SaaS-Unternehmen interaktive Dashboards und Daten-Agenten in Stunden statt Monaten einbetten lässt. Läuft komplett im Browser via DuckDB — deutlich schneller als Legacy-Tools. Gegründet von Ex-Tableau-VP Ellie Fields und dem Schöpfer von D3.js.

6. April 2026. Ridge AI Startup, Seattle ($2,6M Pre-Seed, Madrona).

Cloudflare EmDash

Open-Source-TypeScript-CMS als „geistiger Nachfolger von WordPress“: Jedes Plugin läuft in einem isolierten Dynamic Worker mit expliziten Berechtigungen. Integrierter MCP-Server und KI-Agent-Skills machen es zum ersten CMS für KI-getriebene Content-Workflows.

1. April 2026 (v0.1.0 Developer Preview, trending). Cloudflare (Open Source, MIT-Lizenz).

Aus der Werkstatt

Sehenswerte KI-Tutorials und Analysen auf YouTube

Analyse · 16 Min.

Anthropic Just Broke Software Forever

Tech With Tim (1,99 Mio. Subs) · 11. April 2026

Tech With Tim analysiert die Auswirkungen von Claude Mythos auf die Software-Entwicklung. Das Video beleuchtet Anthropics neuestes Modell und seine Implikationen für die Zukunft des Programmierens — insbesondere die Frage, ob traditionelle Software-Entwicklung durch KI-Agenten abgelöst werden könnte.

Tutorial · 15 Min.

Why The Hermes Agent Just Replaced OpenClaw (DGX Spark Test)

BridgeMind (60.200 Subs) · 11. April 2026

BridgeMind testet den Hermes Agent als Alternative zu OpenClaw auf NVIDIAs DGX Spark Hardware. Das Video vergleicht beide Agent-Frameworks in der Praxis und zeigt, warum Hermes Agent für bestimmte lokale KI-Workflows die bessere Wahl sein könnte — mit konkreten Benchmark-Ergebnissen.

Ausgabe vom 12. April 2026

Die Vertrauenskrise der KI-Benchmarks — Wenn die Messlatte selbst das Problem ist

Tool-Radar

Aus der Werkstatt