· 8 Artikel + Reportage + Tool-Radar + Werkstatt

Ausgabe vom 8. Mai 2026

Maschinell recherchiert, menschlich relevant.

Sicherheit · Anthropic + Mozilla

271 Zero-Days in drei Wochen: Wie Claude Mythos die Firefox-Sicherheit umgekrempelt hat

Hintergrund & Analyse

Mozilla hat am Mittwoch im hauseigenen Mozilla-Hacks-Blog die Innenansicht eines Sicherheits-Programms offengelegt, das in dieser Form in der Browser-Industrie keinen Vorgänger hat. Brian Grinstead (Distinguished Engineer), Christian Holler (Firefox Tech Lead) und Frederik Braun (Firefox AppSec Manager) beschreiben einen ephemeren Cluster aus parallelen Workern, die mit dem nicht-öffentlichen Anthropic-Modell Mythos die Firefox-Codebasis Datei für Datei nach Sicherheitslücken absuchen — und die Nachweise dann an menschliche Engineers zur Patch-Erstellung weiterreichen. Die Ergebnis-Zahl, die TechCrunch, Ars Technica, SecurityWeek und Schneier on Security übereinstimmend nennen, ist 271. Davon 180 als „sec-high“ eingestuft (klassifizierte Schwere mit Exploit-Potenzial), 80 als „sec-moderate“, 11 als „sec-low“.

Was das in den Kontext setzt: Im April 2025 hatte Mozilla im Vergleichszeitraum 31 Sicherheits-Bugs in Firefox geschlossen. Im April 2026 — mit Mythos im Einsatz — waren es 423: 271 von Mythos, 41 von externen Reportern, 111 von anderen internen Pipelines. Frühere Versuche mit Claude Opus 4.6 in Firefox 148 hatten nur 22 Bugs gefunden. Mythos liefert das Zwölffache.

Der eigentliche Schock liegt in der False-Positive-Rate. Brian Grinstead erklärt gegenüber Help Net Security: „We've seen fewer than 15 of these total, and when we see them we update the harness to prevent similar issues in the future.“ Anders gesagt: Bei 271 echten Findings sind weniger als 15 falsche Treffer entstanden. Eine herkömmliche statische Analyse-Pipeline produziert dieses Verhältnis genau umgekehrt — viele False Positives, wenige echte Bugs. Die Vulnerabilities, die Mythos ausgegraben hat, lesen sich zudem wie ein Wer-ist-Wer der schwer-fuzzbarsten Firefox-Bereiche: ein 15 Jahre alter Bug im HTML-`<legend>`-Element, ein 20 Jahre alter XSLT-Bug bei reentrant `key()`-Aufrufen, eine IPC-Race-Condition mit Use-after-free im IndexedDB-Refcount, WebAssembly-JIT-Fake-Object-Primitives, RLBox-Sandbox-Boundary-Verletzungen, mehrere Sandbox-Escapes mit Exploit-Chaining.

Mozilla-Blog-Autor Bobby Holley fasst das Ergebnis so zusammen: „We've found no category or complexity of vulnerability that humans can find that this model can't.“ Einschränkend, aber bemerkenswert wahrhaftig: „Encouragingly, we also haven't seen any bugs that couldn't have been found by an elite human researcher.“ Das relativiert die Magie und legt die ökonomische Pointe frei: Mythos macht das Niveau eines Spitzen-Security-Researchers verfügbar — auf einer Skala, die bisher nicht existierte.

Wichtig für die Einordnung: Die Patches selbst werden nicht automatisch deployed. Grinstead erklärt: „For the bugs we're talking about in this post, every single one is one engineer writing a patch and one engineer reviewing it. We have not found it to be automatable.“ Mythos liefert AI-generierte Patch-Vorschläge als Templates, aber der menschliche Engineer trifft die finale Entscheidung. Ein klarer Hinweis, dass „Agentic Security“ 2026 noch in der Halb-autonomie-Phase steckt.

Strategisch relevant ist der Zugangsmodus: Mythos ist nicht öffentlich. Anthropic restringiert das Modell über das Programm „Project Glasswing“ auf wenige verifizierte Partner — Mozilla, Amazon, Apple, Microsoft sind die bisher bekannten. Die Kontroverse um diesen Modus läuft seit Wochen. CEO Sam Altman hatte Anthropic öffentlich für das Gatekeeping kritisiert — und kurz danach OpenAI selbst eine restringierte Variante (siehe Artikel 4 zu GPT-5.5-Cyber) angekündigt. Anthropic-CEO Dario Amodei sagte CNBC: „If we handle this right, we could be in a better position than we started, because we fixed all these bugs. There are only so many bugs to find.“ Übersetzung: Wer KI-gestützte Bug-Discovery zuerst hat und Bestände entlanghüllt, kommt strukturell vorne aus dem Rennen — bevor Angreifer dieselben Werkzeuge bekommen.

Für CTOs in SaaS-Unternehmen heißt das: Erstens, die Halbwertszeit unentdeckter Schwachstellen sinkt rapide. Wer heute keinen AI-Bug-Discovery-Pilot startet, lässt sich von Wettbewerbern überholen, die ihre kritischen Pfade schneller härten. Zweitens, Project-Glasswing-artige Programme werden in den nächsten 12 Monaten zum Bottleneck — auf der Wunschliste vieler Enterprise-Kunden. Dritte: Patch-Reviews werden zum neuen Engpass, nicht Bug-Discovery. Wer interne Security-Engineering-Kapazität nicht aufstockt, hat 271 unbearbeitete Findings im Backlog.

Wirtschaft · DeepL

Europas teuerstes KI-Unternehmen entlässt 250 Mitarbeitende — und kündigt den AI-Native-Umbau an

Hintergrund & Analyse

Jaroslaw „Jarek“ Kutylowski hat die Nachricht am Donnerstagmittag selbst auf LinkedIn veröffentlicht. „Heute reduzieren wir die Gesamtbelegschaft von DeepL um etwa 250 Stellen“, schreibt der Gründer und CEO des Kölner Übersetzungs-KI-Unternehmens. Bei zuvor rund 1.000 Mitarbeitenden weltweit entspricht das knapp 25 Prozent. Es sei „die schwierigste Entscheidung, die ich in meiner Karriere treffen musste“. Anschließend schiebt Kutylowski die strategische Lesart nach: Das Unternehmen werde „AI-native“, reduziere Hierarchie-Ebenen, baue auf „smaller, high-agency teams“, in denen KI Routinearbeit übernehme, damit Menschen sich auf das konzentrieren könnten, was nur sie leisten können. Der Schritt sei „eine bewusste strukturelle Entscheidung, wie DeepL operieren muss, um globaler KI-Anführer zu bleiben“.

Die Begründung ist bemerkenswert, weil sie nicht primär finanziellen Druck nennt. DeepL ist 2024 in einer 300-Millionen-Dollar-Runde mit 2 Milliarden Dollar bewertet worden — der höchste Wert für ein reines KI-Unternehmen in Deutschland. Der Umsatz wuchs 2024 um 31 Prozent auf 185,2 Millionen Dollar. Bloomberg berichtete im April über IPO-Vorbereitungen mit einer Zielbewertung von bis zu 5 Milliarden Dollar. Das Unternehmen schreibt zwar weiter rote Zahlen, aber die Trajektorie war intakt. Was sich geändert hat, ist die Wettbewerbssituation: Frontier-LLMs wie Claude Opus 4.7, GPT-5.5 und Gemini 3 liefern in Übersetzungs-Benchmarks für viele Sprachpaare statistisch ununterscheidbare Qualität — bei Bruchteilen der Kosten, weil Übersetzung ein Nebenprodukt der Enterprise-Lizenz wird.

DeepL reagiert nicht mit Resignation, sondern mit einem Doppelschritt. Parallel zum Stellenabbau übernimmt das Unternehmen das Mixhalo-Team — einen US-Spezialisten für Audio-Streaming-Technologie — und eröffnet ein neues Büro in San Francisco. Der strategische Fokus rückt auf Produkte, die nicht nur „Sätze übersetzen“, sondern in Workflows eingebettet sind. DeepL Voice wurde Ende April 2026 für Microsoft Teams und Zoom ausgerollt; das System unterstützt über 40 Sprachen, darunter alle 24 EU-Amtssprachen plus Vietnamesisch, Thai und Arabisch. Die aktuelle Pipeline ist Speech-to-Text → Translation → Text-to-Speech; ein direktes Speech-to-Speech-Modell ist in Entwicklung. DeepL Agent erweitert das Portfolio um KI-Agenten, die Sales-, Finance- und Customer-Service-Workflows per natürlichsprachiger Anweisung automatisieren. Das ist der klassische Move des Spezialist-zu-Plattform-Pivots.

Was die deutsche Wirtschaftspresse derweil bewegt, ist die symbolische Dimension. Business Insider titelt „Die KI-Revolution frisst ihre Kinder“ — und meint damit, dass DeepL als das deutsche KI-Unternehmen, von dem die deutsche Industrie immer wieder als „Beweis, dass es bei uns geht“ gesprochen hat, jetzt selbst Opfer der Welle wird, die es einst geritten hat. Bemerkenswert: In keiner der reichweitenstarken deutschen Quellen — heise, Tagesspiegel, ZDFheute, Trending Topics — taucht eine Stellungnahme eines Betriebsrats oder einer Gewerkschaft auf. DeepL hat traditionell keinen prominent organisierten Betriebsrat; ob ein gewählter besteht, ist aus den Quellen nicht ersichtlich. Die Beschäftigtensicht fehlt in der öffentlichen Berichterstattung bislang vollständig.

Welche konkreten Abteilungen am stärksten betroffen sind, hat DeepL nicht offengelegt. Kutylowski schreibt, der Schnitt betreffe „alle Hierarchie-Ebenen“. Die Restrukturierung hin zu „smaller high-agency teams“ deutet auf Streichungen im Mittel-Management und in repetitiven Sales- und Support-Funktionen — also den Funktionen, die KI tatsächlich am ehesten übernehmen kann. Wir berichten in unserer heutigen Reportage ausführlich über das Muster der Spezialist-KI-Restrukturierungen und die drei Klassen vertikaler KI-Geschäfte, die 2026 überleben.

Für die deutsche KI-Politik ist DeepLs Entscheidung ein bedeutender Moment. Während Berliner Regierungsstrategen monatelang über „europäische digitale Souveränität“ diskutieren — die EU-Kommission hat heute zudem überlegt, US-Cloud-Dienste einzuschränken — zeigt der wertvollste deutsche KI-Champion, dass selbst er keine geschützte Position mehr hat, sondern strategisch in den Wettlauf mit US-Hyperscalern einsteigt. Das bedeutet, dass „digitale Souveränität“ 2026 nicht mehr durch deutsche Spezialisten erkämpft werden kann, sondern nur durch Workflow- und Daten-Integration in regulierte Branchen. DeepL versucht genau diesen Pivot — aber der Erfolgsbeweis steht aus.

Regulierung · EU

EU lockert KI-Verordnung: Hochrisiko-Pflichten für 16 Monate verschoben, Industrielobby setzt sich durch

Hintergrund & Analyse

Es war eine Trilog-Verhandlung im Stil der Brüsseler Spezialdisziplin: Die zypriotische Ratspräsidentschaft, das EU-Parlament und die Kommission saßen seit dem 6. Mai zusammen, die Einigung kam in den frühen Morgenstunden des 7. Mai. Vorausgegangen war ein gescheiterter Anlauf am 28. April, der nach 11 bis 12 Stunden vertagt worden war. Inhaltlich ist das Ergebnis das, was im November 2025 von Tech-Vize-Präsidentin Henna Virkkunen als „Digital Omnibus on AI“ eingebracht worden war — eine Sammelnovelle, die in zentralen Punkten die KI-Verordnung von August 2024 entlastet.

Der wichtigste Eingriff betrifft die Fristen. Die Pflichten für Hochrisiko-Systeme nach Annex III der KI-Verordnung — also Anwendungen in Biometrie, Beschäftigung, Bildung, Migration, Strafverfolgung und kritischer Infrastruktur — werden vom 2. August 2026 auf den 2. Dezember 2027 verschoben. KI in Maschinen, Spielzeug, Aufzügen und Medizinprodukten (Annex I) bekommt sogar bis zum 2. August 2028 Aufschub. Auch die Frist für AI-Reallabore (Sandboxes) rutscht auf den 2. August 2027.

Strukturell wichtiger ist eine andere Änderung: Die Pflichtregistrierung von Hochrisiko-Systemen in der EU-Datenbank (Artikel 49(2)) wird für Provider, die eine Hochrisiko-Ausnahme beanspruchen, faktisch in eine freiwillige Selbstauskunft umgewandelt. Die European Digital Rights Initiative (EDRi) hat zusammen mit 60 weiteren Organisationen einen offenen Brief verfasst, in dem sie diesen Schritt scharf kritisiert: Verpflichtende Aufsicht werde „in eine Selbstauskunft“ verwandelt, Ersparnis für die Unternehmen liege bei „etwa 100 Euro pro Registrierung“ — der Preis für Transparenz sei beklemmend gering.

Wer hat die Lockerung getragen? Ein offener Brief vom Juli 2025, unterzeichnet von CEOs aus 110 Unternehmen mit zusammen rund 3 Billionen Dollar Marktwert — Airbus, ASML, Mistral AI, SAP, BNP Paribas, Mercedes-Benz, Siemens Energy — hatte ein zweijähriges Moratorium gefordert. Im Mai 2026 legten ASML, Airbus, Ericsson, Mistral, Nokia, SAP und Siemens nach: Die EU drohe, „sich aus dem globalen KI-Rennen herauszuregulieren“. Der BDI ergänzte die Forderung nach einer „One-in, three-out“-Regel für Bürokratie. Die Verhandlungsführung der zypriotischen Präsidentschaft und Virkkunens persönliches Engagement haben das Paket schließlich durch das Kollegium der Kommissare und die Trilog-Endrunde gebracht. Virkkunens Ziel-Slogan zur Einigung: Unternehmen sollten „focus on building, not on paperwork“.

Der Verbraucherverband BEUC, vertreten durch Direktor Agustín Reyna, sieht es anders: Das überstürzte Verfahren produziere „a law that is more complicated and less effective than before and primarily benefits industry“. Es habe weder ein Impact Assessment der Kommission noch eine ordentliche öffentliche Konsultation gegeben. Die Kritik an der Schwächung von Artikel 77 (nationale Menschenrechtsbehörden) und der Erweiterung der KMU-Ausnahmen auf Großunternehmen kommt von vielen Seiten gleichzeitig.

Im Kompromisspaket steckt eine Verschärfung, die für die Inferenz-Leserschaft relevant ist: Erstmals verbietet die EU explizit „Nudifier-Apps“ — also KI-Tools, die Bilder identifizierbarer Personen zu nicht-einvernehmlichen sexualisierten Darstellungen verändern. Auch KI-generiertes CSAM und intime Bilder ohne Einwilligung sind erfasst. Bestehende Produkte müssen bis zum 2. Dezember 2026 angepasst werden. Wir hatten in unserer Ausgabe vom 30. April über den Vorstoß gegen Deepfakes berichtet — die heutige Einigung kodifiziert den Konsens, mit dem die Industrie zähneknirschend zugestimmt hat.

Geopolitisch ist die Einigung eine Antwort auf Trumps US-AI-Action-Plan, der zwischen Februar und April 2026 in drei Executive Orders und 90 Bundesmaßnahmen ausgerollt wurde. Trumps Plan strebt explizit „unquestioned and unchallenged global technological dominance“ an. Die EU bleibt bei ihrem risikobasierten Ansatz, lockert aber Tempo und Bürokratie. Für SaaS-Unternehmen mit Hochrisiko-KI bedeutet die Einigung 16 Monate zusätzliche Vorbereitungszeit — aber auch 16 Monate Unsicherheit, in welchem Tempo Wettbewerber in den USA und China den europäischen Markt übernehmen können. Die formelle Zustimmung von Plenum und Rat steht noch aus, soll aber vor der Sommerpause erfolgen.

Plattform · OpenAI

OpenAIs Drei-Fronten-Tag: Voice-API, Trusted Contact und GPT-5.5-Cyber

Hintergrund & Analyse

Voice-Stack mit GPT-5-Reasoning. OpenAI hat drei neue Realtime-Modelle in der API veröffentlicht. Das Flaggschiff GPT-Realtime-2 ist nach OpenAI-Angaben das erste Voice-Modell mit „GPT-5-class reasoning“ — es kann komplexe Anfragen verstehen, Tools aufrufen, Unterbrechungen verarbeiten und im natürlichen Gesprächsfluss bleiben, mit einem 128k-Kontextfenster. GPT-Realtime-Translate liefert Live-Sprachübersetzung von 70+ Eingabesprachen in 13 Ausgabesprachen und „hält Schritt“ mit dem Sprecher. GPT-Realtime-Whisper ist ein streaming-Speech-to-Text-Modell, optimiert für Live-Untertitel und Meeting-Notizen. Pricing: GPT-Realtime-2 mit 32 Dollar je 1 Million Audio-Input-Token (0,40 Dollar gecached) und 64 Dollar je 1M Output-Token, GPT-Realtime-Translate für 0,034 Dollar je Minute, GPT-Realtime-Whisper für 0,017 Dollar je Minute. Die Modelle stehen über die Realtime-API zur Verfügung; im OpenAI Playground kann man sie direkt testen. Marktpolitisch sind sie eine direkte Antwort auf ElevenLabs (Stimmenklon), Google Gemini Live und Anthropics Voice-Programm — und die Antwort an DeepL Voice (siehe Artikel 2).

Trusted Contact: Reaktion auf den Raine-Prozess. Erwachsene ChatGPT-Nutzer können ab sofort eine Vertrauensperson — Familienmitglied, Freund, Pflegeperson — in den Account-Einstellungen hinterlegen. Wenn OpenAIs automatische Klassifikatoren Anzeichen von Suizid-Ideation oder akuter Notlage erkennen, wird der Vorfall innerhalb einer Stunde von einem menschlichen Reviewer geprüft. Stuft dieser den Fall als ernst ein, geht eine Benachrichtigung per E-Mail, SMS oder In-App an die Vertrauensperson — ohne Inhalte des Gesprächs preiszugeben. Die Funktion ist optional und nur für Erwachsene; Minderjährige sind über die seit September 2025 bestehenden Parental-Controls abgedeckt.

Der Hintergrund ist juristisch hochbrisant. Im April 2025 starb der 16-jährige Adam Raine durch Suizid nach monatelangen Gesprächen mit ChatGPT-4o. Seine Eltern Matthew und Maria Raine reichten im August 2025 Klage am San Francisco Superior Court ein. OpenAIs eigene Moderation hatte 377 Nachrichten Adams als Self-Harm-Inhalt geflaggt, einige mit Konfidenz von über 90 Prozent — aber kein einziger Sicherheitsmechanismus war ausgelöst worden. Die geänderte Klage wirft OpenAI vor, Sicherheitsschranken in den Monaten vor Adams Tod gelockert zu haben — von Fahrlässigkeit zu vorsätzlichem Fehlverhalten. OpenAI hat parallel mehrere Suizid-Klagen am Hals. Der Trusted-Contact-Mechanismus ist die unmittelbarste Produktreaktion.

GPT-5.5-Cyber: das „Velvet-Rope“-Modell. OpenAI baut sein Programm „Trusted Access for Cyber“ (TAC) aus. Verifizierte Sicherheitsforscher, Regierungs-Stellen, Betreiber kritischer Infrastruktur, Sicherheitsanbieter, Cloud-Plattformen und Finanzinstitute bekommen GPT-5.5 mit gelockerten Klassifikator-basierten Refusals. Die Top-Stufe — GPT-5.5-Cyber — ist ein eigenes Modell, das offensive Cybersicherheits-Tasks ohne die üblichen Guardrails ausführt: Schwachstellen-Forschung, Malware-Analyse, Binär-Reverse-Engineering, Detection-Engineering, Patch-Validierung, Proof-of-Concept-Exploits für gefundene Bugs, Angriffssimulationen auf eigener Infrastruktur. Sam Altman: „We're starting rollout of GPT-5.5-Cyber to critical cyber defenders in the next few days.“

Der Benchmark-Vergleich zur eigentlichen Konkurrenz — Anthropics Mythos (siehe Artikel 1) — wird vom UK AI Security Institute (AISI) gemessen: GPT-5.5 erreicht 71,4 Prozent auf den Expert-Cyber-Tasks, Claude Mythos Preview liegt bei 68,6 Prozent. GPT-5.5 löste eine Reverse-Engineering-Challenge in 10 Minuten für 1,73 Dollar Inferenz-Kosten und war das zweite Modell, das eine mehrstufige Angriffssimulation Ende-zu-Ende durchspielen konnte. The Register und TechCrunch hatten die Diskrepanz zwischen Altmans öffentlicher Kritik an Anthropics Mythos-Zugangsmodus und OpenAIs eigener restringierter Variante als „Velvet-Rope-Strategie“ bezeichnet — Sicherheits-Wissen geht an die, die hinter der Samtleine stehen, alle anderen schauen zu.

Für SaaS-Unternehmen sind die drei Ankündigungen drei separate, aber zusammenhängende Signale. Voice-Modelle mit Reasoning verschieben Customer-Service-Architektur weg von rule-based IVR-Systemen hin zu konversationellen Agenten. Trusted Contact und Parental Controls werden in den nächsten 12 Monaten zur Mindesterwartung jeder konsumentenorientierten KI — die Haftungsfrage ist nicht mehr theoretisch. Und GPT-5.5-Cyber zementiert die Zwei-Klassen-Sicherheitswelt: wer Zugang zu Frontier-Cyber-Modellen bekommt, ist defensiv im Vorteil — wer ihn nicht bekommt, im Rückstand.

Recht · Justiz

„Fantasierende KI“: Berliner Kammergericht rügt Anwälte für erfundene Aktenzeichen

Hintergrund & Analyse

Die Sache liest sich wie ein Lehrstück. Im einstweiligen Rechtsschutz hatte eine Mutter beim Amtsgericht Berlin-Kreuzberg die alleinige elterliche Sorge für ihre Tochter beantragt; das Gericht versagte Verfahrenskostenhilfe. In den Beschwerdeschriften, die anschließend beim 17. Senat des Kammergerichts landeten, fanden die Richter zwei zentrale Fundstellen, die schlicht nicht existieren: eine angebliche BGH-Entscheidung „BGH, Beschl. v. 14.11.2007 — XII ZB 183/07, FamRZ 2008, 137“ — auf der zitierten Fundstelle stand tatsächlich eine andere BGH-Entscheidung mit anderem Aktenzeichen — sowie eine zweite Phantom-Entscheidung eines Brandenburger Obergerichts im ursprünglichen Antragsschriftsatz. Der Senat sprach in seinem Beschluss vom 20. November 2025 explizit von einer „fantasierenden“ KI als Quelle. Veröffentlicht wurde die Entscheidung nun, am 7. Mai 2026, von heise online.

Sanktioniert wurde im konkreten Fall keine Geldbuße — die Beschwerde wurde als unbegründet zurückgewiesen, die Rüge selbst steckt im Beschlusstext. Der berufsrechtliche Hebel ist trotzdem signifikant. Das Gericht stellte klar: Anwälte sind „sowohl aufgrund ihres Mandatsverhältnisses als auch in ihrer Funktion als Organe der Rechtspflege“ verpflichtet, Schriftsätze vor Einreichung gründlich zu prüfen — insbesondere bei Einsatz von KI-Werkzeugen. Die rechtliche Verankerung ist eindeutig: § 43 BRAO (Pflicht zur gewissenhaften Berufsausübung), § 43a Abs. 3 BRAO (Sachlichkeitsgebot, Verbot der bewussten Verbreitung von Unwahrheiten), § 138 ZPO (Wahrheitspflicht im Zivilprozess) und der Anwalt als „Organ der Rechtspflege“ (§ 1 BRAO).

Was bemerkenswert ist: Es ist nicht der erste deutsche Fall, sondern Teil eines verdichteten Musters. Im Juli 2025 hatte das AG Köln im Verfahren 312 F 130/25 in einer Familiensache eine erfundene Monographie („Brons, Kindeswohl und Elternverantwortung, 2013“) mit falscher Autorenzuschreibung dokumentiert; die KI-Wahrscheinlichkeit lag laut hauseigener Analyse bei über 90 Prozent, der Verstoß wurde als Verletzung von § 43a Abs. 3 BRAO gewertet. Das OLG Celle hatte im April 2025 in einem Schriftsatz gleich vier nicht existierende OLG-Entscheidungen aus München, Frankfurt, Düsseldorf und Koblenz festgestellt. Weitere unveröffentlichte Fälle sind aus dem LG Hildesheim und dem VGH Mannheim bekannt.

International ist das Phänomen seit 2023 etabliert. Im US-amerikanischen Lehrbuchfall Mata v. Avianca (S.D.N.Y., 22.06.2023) erhielten die Anwälte Steven Schwartz und Peter LoDuca der New Yorker Kanzlei Levidow, Levidow & Oberman 5.000 Dollar Strafe nach Rule 11 wegen „subjective bad faith“ — sie hatten ChatGPT-generierte erfundene Präzedenzfälle eingereicht. Im Vereinigten Königreich entschied der Divisional Court (Dame Victoria Sharp P, Johnson J) am 6. Juni 2025 in den verbundenen Verfahren Ayinde v Haringey und Al-Haroun v Qatar National Bank: fünf erfundene Entscheidungen im einen Fall, achtzehn nicht existierende Autoritäten im anderen. Dame Sharps Mahnung: „Lawyers who do not comply with their professional obligations in this respect risk severe sanction.“

Die Bundesrechtsanwaltskammer (BRAK) hatte bereits Ende 2024 einen Leitfaden zum KI-Einsatz veröffentlicht. Kernpunkte: Prüf- und Kontrollpflichten beim KI-Einsatz, Wahrung der anwaltlichen Verschwiegenheit (§ 43a Abs. 2 BRAO), Transparenzpflichten gegenüber Mandanten, ausdrücklicher Hinweis auf Halluzinationsrisiko und Haftungsfolgen. Was im KG-Berliner Fall — wie in den anderen deutschen Verfahren — fehlt, ist die offene Angabe des verwendeten KI-Tools. Die Quelle wird vom Gericht jeweils nur indirekt aus dem Halluzinationsmuster erschlossen. In den US- und UK-Fällen war es ChatGPT.

Für SaaS-Anbieter im Legaltech-Bereich ist das relevant: Tools, die Schriftsätze automatisch mit Fundstellen versehen, müssen Verifikationsmechanismen einbauen, die jede Zitation gegen offizielle Datenbanken (juris, beck-online, dejure.org) prüfen — nicht nur generieren. Wer das nicht leistet, baut Haftungsrisiko für seine Kunden ein. Der Trend wird sich verschärfen, wenn — wie das KG Berlin andeutet — Sanktionen über Rügen hinaus zu konkreten Geldbußen oder berufsrechtlichen Konsequenzen eskalieren.

Forschung · DeepMind

DeepMind investiert in „Eve Online“: Das Sci-Fi-MMO wird zum Trainings-Sandkasten für Langzeit-Agenten

Hintergrund & Analyse

Am Mittwoch hat das Studio in Reykjavík einen Tripel-Deal angekündigt: Erstens, die Loslösung von Pearl Abyss, dem koreanischen Konzern, der CCP 2018 für rund 425 Millionen Dollar gekauft hatte. Die Trennung kostete laut Bloomberg etwa 120 Millionen Dollar (Cash plus Non-Cash-Anteile). Zweitens, das Rebranding des Studios in „Fenris Creations“ — ab dem 6. Mai 2026 firmiert das Unternehmen offiziell unter dem neuen Namen. Drittens, die Forschungspartnerschaft und Minderheitsbeteiligung von Google DeepMind. Eine konkrete Investitionssumme von DeepMind wurde nicht offengelegt; CEO Hilmar Veigar Pétursson bleibt im Amt.

Was macht „Eve Online“ für DeepMind interessant? Eve ist seit Mai 2003 ein Single-Shard-MMO — alle Spieler weltweit auf einem persistenten Server (Tranquility), 24/7, ohne Match-Grenzen. Die In-Game-Wirtschaft ist vollständig spielergetrieben: Asteroiden-Mining, Frachtlogistik, Schiff-Industrie, Spionage, Allianz-Kriege mit Tausenden gleichzeitigen Teilnehmern, Marktmanipulation, politische Konflikte. CCP beschäftigte zwischenzeitlich einen Chief Economist (Eyjólfur Guðmundsson, 2007), um die In-Game-Volkswirtschaft zu analysieren. 23 Jahre Verhaltens- und Wirtschaftsdaten, die von echten Menschen mit echten Konsequenzen erzeugt wurden, sind ein einzigartiges Forschungsobjekt.

DeepMind nennt offiziell drei Forschungsschwerpunkte: long-horizon planning (Langzeit-Planung über Stunden und Tage hinweg), memory (Gedächtnissysteme, die Agenten zwischen Sessions tragen) und continual learning (kontinuierliches Lernen aus Erfahrung). Das Director of Research-Statement bezeichnet Eve als „one-of-a-kind simulation for testing general-purpose artificial intelligence in a safe sandbox environment“. Demis Hassabis hatte schon 2019, als AlphaStar in StarCraft II Grandmaster-Level erreichte, das Konzept der Spiele als „perfect practice ground“ für KI-Forschung formuliert. Vor Eve hatte DeepMind Atari (2013/2015), Go (AlphaGo, 2016), StarCraft II (AlphaStar, 2019) und 3D-Welten (SIMA, 2024) erforscht. Eve ist die nächste Komplexitätsstufe.

Wichtig für die menschliche Spielergemeinde: Das Training läuft offline auf einer lokalen, isolierten Kopie von Eve, nicht auf dem Live-Server Tranquility. KI-Agenten betreten den Live-Server zum jetzigen Zeitpunkt nicht. Die Ankündigung von Fenris Creations spricht aber bewusst vage von „new gameplay experiences enabled by these technologies“. Mehr Details werden auf dem EVE Fanfest 2026 ab dem 14. Mai erwartet. Auf den offiziellen EVE-Foren laufen seit Mittwoch Diskussions-Threads — die Stimmung ist gemischt. Einige Spieler befürchten, dass ihre In-Game-Aktionen zu Trainingsmaterial werden; andere sehen Chancen, dass KI-Agenten das berüchtigt komplexe Spiel für Neueinsteiger zugänglicher machen.

Die Vorgeschichte von CCPs Wissenschafts-Engagement gibt der Partnerschaft Tiefe. Seit 2016 läuft Project Discovery als „Massively Multiplayer Online Science“: Phase 1 brachte Eve-Spielern die Klassifikation von Bildern aus dem Human Protein Atlas (Schweden) bei und identifizierte über 109 neue Protein-Kandidaten; Phase 2 widmete sich der Exoplaneten-Suche, Phase 3 COVID-19, Phase 4 (2024) Krebs- und Immunsystem-Forschung. Insgesamt 1,3 Millionen Spieler waren beteiligt, mit rund 150.000 Klassifikationen pro Tag. Die DeepMind-Partnerschaft ist also weniger ein abrupter Pivot als die Fortsetzung einer ungewöhnlichen Wissenschafts-Tradition.

Für Tech-Entscheider in SaaS-Unternehmen ist die Nachricht weniger wichtig als Spielnachricht, sondern als Signalstärke für die Forschungsrichtung von DeepMind: Long-Horizon-Planning und persistente Gedächtnissysteme sind die nächsten Engineering-Frontiers, an denen DeepMind, Anthropic (mit der „Dreaming“-Funktion in Claude Managed Agents) und OpenAI (mit Persistent-Memory in Codex) parallel arbeiten. Wer 2026/2027 KI-Agenten in produktive Workflows einbinden will, wird auf Modelle zurückgreifen, die genau diese Eigenschaften besser können als heute. Eve Online ist der Trainingsplatz dafür.

Hardware · AMD

AMD trennt KI- und HPC-Linie: MI350P bringt 144 GByte HBM3e in den PCIe-Server, MI430X kehrt zur Doppelpräzision zurück

Hintergrund & Analyse

Vier Jahre nach der MI210 hat AMD am 7. Mai mit der Instinct MI350P wieder einen Instinct-Beschleuniger im PCIe-Format vorgestellt. Die Karte ist im Wesentlichen eine halbierte MI355X: ein I/O-Die mit vier statt acht Compute-Dies (XCDs), 128 aktive Compute Units, dazu 144 GByte HBM3e an einem 4096-Bit-Speicherinterface mit rund 4 TByte/s Bandbreite. Sie arbeitet passiv gekühlt im Dual-Slot-Format und zieht 600 Watt TDP über den umstrittenen 12V-2×6-Stecker — optional drosselbar auf 450 Watt. Bei Rechenleistung gibt AMD 2.300 TFLOPS FP8 (dicht), 4.600 TFLOPS MXFP4 und MXFP6 an. Tom's Hardware bewertet das als rund 39 Prozent über der theoretischen FP8-Leistung von Nvidias H200 NVL — bei 144 GByte zu 141 GByte Speicher. Die NVL hat allerdings mit 4,8 TByte/s rund 20 Prozent mehr Bandbreite und einen ausgereifteren CUDA-Software-Stack.

Eine echte Konkurrenz zur Nvidia B200 PCIe ist die Karte trotzdem nicht: Anders als auf den OAM-Modulen sind die Infinity-Fabric-Links nicht herausgeführt; jegliche GPU-zu-GPU-Kommunikation läuft über PCIe Gen5 x16 (128 GByte/s). Das positioniert die MI350P klar als Inferenz- und Agentic-AI-Beschleuniger für Modelle bis 200–250 Milliarden Parameter in Standard-Servern. AMD-Blog-Hinweis: „Run Enterprise AI on Your Existing Infrastructure.“ Der Use Case ist Brownfield-Modernisierung — Enterprise-Rechenzentren, die aktuelle Inferenz-Lasten ohne komplette Rack-Migration aufrüsten wollen. ROCm-7-Unterstützung ist zum Launch gegeben; Modelle sollen über Dell, HPE, Lenovo und Supermicro ab sofort lieferbar sein. Konkrete Preise nannte AMD nicht.

Parallel hat AMD auf dem HPC User Forum erstmals technische Details zur Instinct MI430X präsentiert — und überrascht mit ungewohnter Schwerpunktsetzung. Während die MI455X im kommenden Helios-Rack auf KI-Training zielt, kehrt die MI430X bewusst zu HPC-Wurzeln zurück: mehr als 200 TFLOPS native FP64-Leistung, also Doppelpräzision für physikalische Simulationen, Klimamodelle und numerische Strömungsmechanik. Zum Vergleich: Die MI355X erreichte hier nur 78,6 TFLOPS, und Nvidias kommender Rubin-Beschleuniger soll laut AMD-Folien bei klassischen HPC-Workloads um Faktor sechs zurückliegen. Speicherseitig setzt AMD auf 432 GByte HBM4 mit 19,6 TByte/s — identisch mit der KI-Schwester MI455X, aber mit anderer Recheneinheiten-Konfiguration auf Basis der nächsten CDNA-Generation.

Drei Exascale-Systeme sind für die MI430X bereits gesetzt: Discovery am Oak Ridge National Lab in den USA (geplant für 2028, als Nachfolger von Frontier), Alice Recoque in Frankreich und Herder in Deutschland. Erste Auslieferungen werden für die zweite Jahreshälfte 2026 erwartet. Damit positioniert sich AMD bewusst gegen Nvidia, das bei Vera Rubin GR200 noch versucht, KI-Training und FP64-HPC im selben Chip zu vereinen.

Strategisch verfolgt AMD damit 2026 eine Drei-Achsen-Strategie: OAM-Module (MI355X, MI455X) für Hyperscaler-Racks wie Helios, PCIe-Karten (MI350P) für die Brownfield-Modernisierung in Enterprise-Rechenzentren, FP64-Spezialisten (MI430X) für staatliche HPC-Aufträge. Die Trennung zwischen KI- und HPC-Silizium ist eine Wette: AMD nimmt an, dass MXFP4 für KI und FP64 für Wissenschaftssimulation strukturell zu unterschiedlich sind, um auf einem Die sinnvoll Platz zu finden.

Für SaaS-Infrastruktur-Entscheider liefert AMD damit erstmals seit Jahren eine ernstzunehmende PCIe-Inferenz-Option jenseits von Nvidia. Wer heute 4–8 Inferenz-Beschleuniger in einen 19-Zoll-Standard-Server packen will, ohne auf eine vollständige Rack-Migration zu warten, kann die MI350P realistisch als Alternative kalkulieren. Die offene Frage ist die Software-Reife: ROCm 7 hat sich verbessert, aber CUDA bleibt der Branchenstandard. Wer auf vorhandenen PyTorch-Workloads aufsetzt, muss Konvertierungs- und Validierungsarbeit einplanen.

Hardware · Wearables

Hardware-Tag bei Apple und Google: AirPods mit Kameras nähern sich der Massenproduktion, Fitbit Air greift Whoop für 99 Euro an

Hintergrund & Analyse

Apples ohrnaher Blick auf die Welt. Bloomberg-Reporter Mark Gurman berichtete am Donnerstagabend, dass Apples lange erwartete kamera-ausgestattete AirPods das Stadium des „Design Validation Test“ (DVT) erreicht haben — die zweitletzte Stufe vor der Massenproduktion, die typischerweise drei bis sechs Monate dauert. Apple-interne Tester tragen Prototypen mit nahezu finalem Design bereits im Alltag. Die Kameras in den neuen AirPods — intern teils unter dem Namen „AirPods Ultra“ geführt — sind kein Foto-Werkzeug. Sie liefern niedrig aufgelöste Bilder als visuellen Kontext für Siri: „Schau einen Gegenstand an und frag Siri, was es ist“, lautet die Idee, vergleichbar mit dem Bild-Upload in Chatbots. Eine kleine LED soll signalisieren, wenn visuelle Daten in die Cloud gehen — Apples Antwort auf die Privatsphäre-Kritik, die Meta sich mit den Ray-Ban-Brillen eingehandelt hat.

Der Haken: Apple hatte einen Launch in der ersten Jahreshälfte 2026 geplant, doch die generative Siri-Variante, die das Gerät überhaupt sinnvoll macht, kommt erst im September mit iOS 27. AppleInsider hält einen Verkaufsstart 2026 für unwahrscheinlich; realistisch ist Frühjahr oder Herbst 2027. Engadget-Kolumnist Devindra Hardawar warnt, die AirPods seien „ein weiteres Überwachungsgerät“, und Bystander-Consent müsse neu verhandelt werden. Apple plant parallel eine breitere Hardware-Offensive: Brillen, ein Anhänger im AirTag-Format und Vision-Pro-Nachfolger laufen gleichzeitig.

Googles Whoop-Killer ohne Abozwang. Während Apple noch testet, liefert Google bereits aus. Das Fitbit Air, am 7. Mai angekündigt und ab dem 26. Mai für 99,99 US-Dollar beziehungsweise 99,90 Euro erhältlich, ist ein bewusster Frontalangriff auf Whoop und Oura: ein bildschirmloses, nur zwölf Gramm leichtes Armband mit pillenförmigem Sensorpuck, der sich aus dem Band lösen lässt. Die Sensoren — optischer Pulsmesser, 3-Achsen-Accelerometer, Gyroskop, rote und infrarote Dioden für SpO2, Hauttemperatur — entsprechen dem Whoop-Niveau. Akku: rund sieben Tage, eine Minute Schnellladen reicht für einen Tag.

Der eigentliche Hebel ist die Software. Google hat die Fitbit-App in Google Health umbenannt und das Premium-Abo in Google Health Premium für 8,99 Euro im Monat. Kern ist der Google Health Coach, ein Gemini-basierter KI-Assistent, der Schlaf-, Recovery- und Aktivitätsdaten in Echtzeit liest und kontextuelle statt generischer Antworten liefert („Warum war meine Erholung gestern so schlecht?“). Anders als Whoop, das ein Pflicht-Abo ab rund 200 Euro pro Jahr verlangt, gibt Google das Gerät ohne Abozwang ab — Basis-Tracking funktioniert dauerhaft kostenlos, drei Monate Premium liegen bei. Dass Fitness-Daten künftig in Googles Health-Stack landen, dürfte Datenschützer beschäftigen; Google verspricht lokale Verarbeitung sensibler Werte, der KI-Coach läuft jedoch in der Cloud.

Amazon Alexa+ in Deutschland. Tags zuvor hatte Amazon den deutschen Public-Vorabtest von Alexa+ angekündigt — der grundlegend überarbeiteten, KI-basierten Sprachassistenz. Im Early Access auf Echo- und Fire-TV-Geräten verfügbar; eine Integration in BMW-Bordsysteme ist Teil des Pakets. Spiegel-Test stellt fest: persönlicher und teurer als die alte Alexa, aber nicht für Gelegenheitsnutzer attraktiv. Die deutschsprachige Bedienung in natürlicher Sprache löst die Satzbaustein-Logik der ersten Alexa-Generation ab. Auch hier: AI verlässt den Bildschirm und zieht in das ambient Layer.

Drei sehr unterschiedliche Antworten auf dieselbe Frage. Apple wettet auf gerätenahe Sensoren in Kombination mit Apple Intelligence (sobald sie produktiv ist). Google bündelt Wearable mit Cloud-KI und macht Subscription-Druck zum Differenzierungsmerkmal — gegenüber Whoop ist das eine harte Markteröffnung. Amazon kämpft um die Sprach-Schnittstelle im Wohnzimmer. Die strategische Wette ist riskant: Ohne brauchbare Modelle sind die Geräte nutzlos, wie Apples Siri-Verzögerung zeigt. Aber die Richtung ist klar. Wer den Ambient-Layer besitzt, besitzt den Zugang zum Nutzer.

Für SaaS-Anbieter eröffnet sich ein neuer Distributionskanal: Wer eine API-Integration mit Google Health Coach oder Apple Intelligence bekommt, bekommt direkten Zugang zu Lifestyle- und Gesundheitsdaten. Datenschutz-Compliance wird damit zur Frontier — wer in der EU agiert, muss DSGVO-Konformität in den ersten Versionen mitbauen. Wer das nicht leistet, riskiert nach den Cookie-Banner-Erfahrungen ähnliche Reputationsschäden.

Reportage

Das DeepL-Paradox — Wenn Spezialist-KIs zu Verlierern ihrer eigenen Welle werden

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

Subquadratic Logo
Frontier-LLM mit subquadratischer Sparse-Attention-Architektur und 12-Millionen-Token-Kontextfenster.
Bricht erstmals die quadratische Attention-Skalierung; laut RULER-128K-Benchmark 95 Prozent Genauigkeit für 8 Dollar (Claude Opus: 94 Prozent für 2.600 Dollar). Aus dem Stealth-Modus mit 29 Mio. Dollar Seed-Runde gestartet, Founder ist Ex-Head-of-Generative-AI bei Meta.
LLM / Foundation Model · 5. Mai 2026
Coder Agents Logo
Self-hosted, modell-agnostische KI-Coding-Agenten für Enterprise-Entwicklungsteams.
Anders als Cursor oder GitHub Copilot läuft die Orchestrierung komplett auf eigener Infrastruktur — kein Code verlässt das Unternehmen. Adressiert regulierte Branchen (Banken, Defense, Healthcare), die agentisches Coding bisher nicht einsetzen durften.
Dev Tools / Enterprise Coding · 6. Mai 2026
Eloo Logo
Agentic-Builder-Plattform, die Geschäftsziele in selbstoptimierende KI-Agenten-Teams übersetzt — ohne Coding.
Statt Workflows manuell zu bauen, definieren Nutzer Outcomes („Pipeline überwachen“, „Churn-Risiken identifizieren“). Eloo lernt die Firmen-„DNA“ und generiert Agenten, die sich an der Performance kalibrieren. 100+ Teams, 500+ Agenten in der ersten Woche, gegründet von Rajiv Ayyangar und Davida Ginter.
Business Automation / No-Code Agents · 5. Mai 2026
Mindra Logo
Agentic Orchestrator für 24/7 autonome Multi-Agent-Teams in Marketing, Sales, Ops und Supply Chain.
Statt Single-Agent-Tools komponiert Mindra ganze Agent-Teams aus 3.000+ Integrationen (Meta Ads, HubSpot, Salesforce, Slack, ERPs), mit „compounding memory“ für Firmen-Tonalität, konfigurierbaren Safety-Limits und Human-in-the-Loop-Eskalationen.
Business Automation / Multi-Agent · 4. Mai 2026
Hachigo Logo
Verwandelt Plain-English-Beschreibungen in überprüfbare KI-Workflows mit Step-Review.
Nutzer beschreibt eine Aufgabe („verwandle jeden Blogpost in LinkedIn-Post, Tweet und E-Mail“), Hachigo stellt Rückfragen, baut den Workflow und lässt jeden Schritt vor der Ausführung reviewen — gegen die „AI-Bolt-On“-Automation à la Zapier.
Productivity / Workflow · 7. Mai 2026
PandaProbe Logo
Open-Source-Observability-Plattform für KI-Agenten — Tracing, Eval, Monitoring und Debugging in einem.
Erfasst komplette Agent-Executionen als Sessions/Traces/Spans über LLMs, Tools und Sub-Agents, scored sie mit agent-spezifischen Metriken und plant wiederkehrende Evaluations in Production. Self-hostable, GitHub-Repo TencoDev/PandaProbe.
Dev Tools / Observability / OSS · 5. Mai 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Claude's New "Infinite" Context Window Model, Doubled Rate Limits, Multi-Agent Coordination, & More!
Tutorial
WorldofAI · 8:33
WorldofAI fasst die Anthropic-Welle der vergangenen Woche zusammen: SpaceX-Compute-Deal mit Verdopplung der Claude-Code-Rate-Limits, Managed-Agents-Updates (Dreaming, Outcomes, Multi-Agent-Orchestration) und die neuen Finanzdienst-Agenten. Schneller Überblick für jeden, der den Anthropic-Pulse für die Woche nachvollziehen will.
Claude Code Just Got WAY More Powerful
Tutorial
How I AI · 11:38
Praxis-Walkthrough der frischen Claude-Code-Workflow-Features. Der Creator zeigt anhand eines konkreten Coding-Tasks, wie sich Multi-Agent-Coordination, Routines und das verdoppelte Rate-Limit aus der Anthropic-SpaceX-Partnerschaft im Alltag auswirken. Für Engineers, die Claude Code produktiv nutzen, eine pragmatische Einordnung.