Die Inferenz

Produkt · OpenAI

ChatGPT verbindet sich mit Ihrem Bankkonto: OpenAI startet Personal Finance

15. Mai 2026

OpenAI hat ChatGPT um einen Personal-Finance-Modus erweitert, der per Plaid auf über 12.000 US-Banken, Broker und Crypto-Wallets zugreift. Nutzer sehen Portfolio-Performance, Spending-Tracker, Subscription-Übersicht und können Finanzfragen stellen, die auf realen Kontoständen basieren. Das Feature läuft zunächst nur im 100-Dollar-Pro-Tier auf Web und iOS — und reißt eine neue Vertrauensfrage auf, die zwischen riesigem Convenience-Versprechen und ungeklärten Datenschutz-Details oszilliert.

Hintergrund & Analyse

Das technische Rückgrat ist Plaid, die seit 2013 etablierte US-Fintech-Infrastruktur, über die bereits Venmo, Robinhood, Coinbase und Chime Bankkonten verknüpfen. Plaid wurde im Februar 2026 mit 8 Milliarden Dollar bewertet und bereitet einen IPO vor. Über Plaid-Tokens erhält ChatGPT lesenden Zugriff auf Salden, Transaktionen, Investments und Verbindlichkeiten — ohne jemals Banking-Passwörter zu sehen und ohne die Fähigkeit, Transaktionen auszuführen. Verwaltet wird die Berechtigung im Plaid Portal, wo Nutzer jederzeit den Zugang widerrufen können.

Im neuen Finances-Sidebar sehen Nutzer ein Dashboard mit Portfolio-Performance, Spending-Kategorien, anstehenden Zahlungen, Subscription-Übersicht und Spar-Aktivität. Beispielhafte Fragen, die OpenAI als Use-Cases präsentiert: „Wie viel hat mein letzter Urlaub wirklich gekostet?“, „Kann ich es mir leisten, einen Job mit weniger Gehalt für mehr Familienzeit anzunehmen?“ oder „Was ist das größte Risiko in meinem Portfolio?“. Die Antworten basieren auf einem speziell trainierten Modell — laut OpenAI GPT-5.5 Thinking mit 60 Prozent Score auf einem eigens entwickelten FinanceAgent-Benchmark, der mit über 50 Finanz-Profis erstellt wurde.

Strategisch passt der Launch in OpenAIs „Everything App“-Konsolidierung unter Greg Brockman (siehe Artikel 2). Bereits am 13. April 2026 hatte OpenAI das Personal-Finance-Startup Hiro im Acqui-Hire übernommen — Ethan Bloch und sein Zehn-Personen-Team mit Investoren wie Ribbit Capital und General Catalyst. Hiros eigene Plattform wurde am 20. April geschlossen, alle Daten am 13. Mai gelöscht — perfektes Timing zum 15. Mai. Im Januar 2026 hatte OpenAI dieselbe Logik bereits für Gesundheitsthemen vorgestellt; nun folgt die Finanz-Domäne. Anthropic konterte zeitgleich mit zehn Enterprise-Finance-Agent-Templates am 5./6. Mai 2026 — fokussiert auf Pitchbooks, KYC und Month-End-Closing —, während OpenAI direkt im Consumer-Markt landet.

Die Datenschutz-Reaktion fällt gemischt aus. OpenAI verspricht 30 Tage Löschfrist nach Disconnect, individuell löschbare „Financial Memories“ und standardmäßig kein Modell-Training mit Finanzdaten — Opt-In ist separat regelbar. Temporäre Chats greifen nicht auf Konten zu. Kritiker wie die IBTimes notieren dennoch: „Das Unternehmen hat nicht vollständig offengelegt, wie diese Finanzdaten über die Standard-Modell-Trainings-Parameter hinaus behandelt werden.“ Digital Trends ergänzt, OpenAI mache keine konkreten Aussagen zu Breach-Response-Plänen oder Backup-Protokollen während der 30-Tage-Frist. Parallel läuft in Kalifornien eine ChatGPT-Datenschutz-Sammelklage wegen Meta-Pixel- und Google-Analytics-Tracking ohne Consent. Die Top-Reaktion im MacRumors-Forum: „Hahaha. Nope. Just nope.“ (93 Upvotes).

Für SaaS- und Tech-Entscheider stellt sich die Frage nach dem strategischen Signal: Wenn der ChatGPT-Anbieter selbst Bankkonten anbindet, wird die Schwelle für ähnliche Integrationen in Enterprise-Tools rapide sinken — Mitarbeitende werden erwarten, dass interne AI-Assistenten auch auf Salesforce, HRIS oder das eigene Finanzsystem zugreifen. Die rechtlichen Fragen (Auskunftspflichten nach DSGVO, Haftung für falsche Finanzberatung, Datenresidenz in der EU) sind dabei noch weitgehend unbeantwortet. Verfügbar ist das Feature zum Start ausschließlich in den USA für ChatGPT-Pro-Abonnenten ($100/Monat seit dem 9. April 2026); eine Ausweitung auf Plus ($20) sowie internationale Märkte hat OpenAI „nach Feedback“ angekündigt — ohne Datum.

Quellen

Unternehmen · OpenAI

Brockman übernimmt offiziell die Produktstrategie — ChatGPT und Codex werden zur Superapp verschmolzen

15. Mai 2026

OpenAI konsolidiert sein gesamtes Produkt-Portfolio unter Mitgründer und Präsident Greg Brockman. Ein internes Memo verspricht „maximale Konzentration auf die agentische Zukunft“ — und fasst ChatGPT, Codex sowie die Developer-API in vier neue Säulen zusammen. Nick Turley, der bisherige ChatGPT-Lead, wechselt auf Enterprise-Produkte. Es ist die wievielte Reorganisation in zwölf Monaten? Mindestens die fünfte.

Hintergrund & Analyse

Das Memo vom 15. Mai zitiert Brockman mit einem unverkennbaren Strategiesatz: „Wir konsolidieren unsere Produktanstrengungen, um mit maximaler Konzentration auf die agentische Zukunft zu liefern — sowohl im Consumer- als auch im Enterprise-Bereich.“ Konkret heißt das: ChatGPT, Codex und der im April gestartete Atlas-Browser werden zu einer einzigen agentischen Plattform verschmolzen. Thibault Sottiaux, bisher Engineering Lead bei Codex, übernimmt die zentrale Säule „Core Product & Platform“ über Consumer, Enterprise und Developer hinweg. Nick Turley behält Einfluss auf ChatGPT, fokussiert sich aber auf Enterprise-Produkte und kritische Industrien. Beide berichten direkt an Brockman.

Die Reorg ist die formale Bestätigung einer Interim-Phase, die seit dem 3. April 2026 lief. Damals nahm Fidji Simo, CEO of Applications (vormals Instacart-CEO), wegen einer Verschlechterung ihrer chronischen POTS-Erkrankung eine medizinische Auszeit; Brockman übernahm vorläufig. Mit dem aktuellen Memo wird die Funktion permanent — Simo kehrt nicht in dieselbe Position zurück. Brockman selbst war 2024 vorübergehend abwesend, kehrte Anfang 2025 zurück und ist seither Präsident.

Die Reorganisations-Welle der letzten zwölf Monate ist beachtlich. März 2025: Brad Lightcap übernimmt Business-Verantwortung. April 2026: Lightcap wechselt auf „Special Projects“. 24. März 2026: Sora-Shutdown angekündigt (App-Ende 26. April), weil das Produkt bei unter 500.000 Nutzern täglich rund eine Million Dollar Compute-Kosten erzeugte. 17. April 2026: Triple-Exit an einem Tag — Kevin Weil (VP Science), Bill Peebles (Sora-Chef) und Srinivas Narayanan (CTO B2B Applications). Anfang Mai: Marketing-Chefin Kate Rouch geht. Und jetzt: Brockman-Reorg.

Strategisch ist die Konsolidierung eine Antwort auf zwei Druckpunkte. Erstens: Anthropic hat im April 2026 OpenAI bei der Business-Adoption erstmals überholt (34,4 vs. 32,3 Prozent), getrieben von Claude Code und Anthropics neuem Vulnerability-Modell Mythos. Zweitens: Microsoft, einst symbiotischer Partner, sucht zunehmend eigene Wege — die Microsoft-Kündigung interner Claude-Code-Lizenzen vom 14. Mai ist nur ein Symptom. Brockman und Sottiaux sollen jetzt eine „saubere Produktstory“ für die anstehende IPO-Vorbereitung liefern; Analysten taxieren OpenAI inzwischen mit Bewertungen jenseits der Billion Dollar.

Pikant ist der zeitliche Kontext zur Apple-Klage-Drohung: Bloomberg-Reporter Mark Gurman berichtete am 14. Mai 2026, OpenAI prüfe rechtliche Schritte gegen Apple wegen der gescheiterten ChatGPT-Siri-Integration. Beide Vorgänge zeigen dasselbe Muster — OpenAI will Distribution und Platform-Kontrolle selbst übernehmen, weil Partner-Deals (Apple) nicht die erwarteten Umsätze brachten. Die Brockman-Reorg ist die produktstrategische Antwort: Eigene Distribution über Atlas-Browser und eine einheitliche Superapp, statt sich auf fremde Ökosysteme zu verlassen.

Quellen

Recht · Deutschland

OLG Hamm: Unternehmen haften vollständig für KI-Chatbot-Halluzinationen — Disclaimer reichen nicht

15. Mai 2026

Das Oberlandesgericht Hamm hat im Verfahren 4 UKl 3/25 (Urteil vom 12. Mai 2026) eine deutsche Schönheitsklinik dazu verurteilt, die Falschangaben ihres Chatbots zu unterlassen. Der Bot hatte die Geschäftsführer als „Fachärzte für ästhetische Medizin“ angepriesen — ein Titel, den es in den deutschen Weiterbildungsordnungen gar nicht gibt. Der Senat stellt klar: Der Chatbot ist „rechtlich Teil der geschäftlichen Organisation“ — und seine Aussagen sind dem Betreiber als eigene geschäftliche Handlung zuzurechnen.

Hintergrund & Analyse

Beklagte ist die Aesthetify GmbH, eine Schönheitsklinikkette mit sechs Standorten im Raum Recklinghausen. Die beiden Geschäftsführer Henrik Heüveldop und Dominik Bettray treten als „Dr. Rick“ und „Dr. Nick“ auf und werden vom KI-Chatbot auf der Klinikwebsite mehrfach mit Titeln versehen, die sie nicht führen — „Fachärzte für plastische und ästhetische Chirurgie“, „Fachärzte für ästhetische Medizin“, „Fachärzte für ästhetische Behandlungen“. Klägerin ist die Verbraucherzentrale Nordrhein-Westfalen, die als qualifizierte Einrichtung nach dem Unterlassungsklagengesetz (UKlaG) direkt vor dem OLG Hamm verhandelte.

Das juristische Kernargument der Beklagten: Der Bot sei mit korrekten Daten programmiert worden; Halluzinationen seien nicht zurechenbar, allenfalls über Verkehrssicherungspflichten relevant. Der 4. Zivilsenat sieht das anders. In der Urteilsbegründung heißt es, der Chatbot sei „rechtlich Teil der geschäftlichen Organisation“ der Beklagten und damit kein „Dritter im Sinne des Gesetzes“. Konsequenz: Es greift keine abgemilderte Haftung über Verkehrssicherungspflichten, sondern die direkte Zurechnung als eigene geschäftliche Handlung nach § 5 Abs. 1, Abs. 2 Nr. 3 UWG. Ob der Betreiber den Bot mit korrekten Datensätzen aufgesetzt hat, spielt keine Rolle.

Damit reiht sich Hamm in eine sich verdichtende Rechtsprechungslinie ein. Das LG Hamburg entschied bereits am 23. September 2025 (Az. 324 O 461/25), dass X.AI für die Grok-Falschbehauptung haftet, der Verein Campact werde aus Steuermitteln finanziert — „die Tatsache, dass fehlerhafter Inhalt von einer Maschine generiert wurde, ändert nichts an dessen rechtlicher Unzulässigkeit“. Das LG Kiel (29. Februar 2024, 6 O 151/23) hatte schon zuvor entschieden, dass ein Betreiber als unmittelbarer Störer für geschäftsschädigende Falschinformationen einer KI haftet. International zitiert wird der Fall Air Canada vor dem kanadischen Civil Resolution Tribunal (Februar 2024), wo die Fluglinie für ein Chatbot-Versprechen über einen Trauerrabatt einstehen musste.

Die juristische Praxis reagiert eindeutig: Disclaimer wie „KI kann Fehler machen“ reichen nicht. Der Shopbetreiber-Blog, das DATEV-Magazin und Hogan Lovells kommentieren parallel: Output-Monitoring (statt nur Input-Kontrolle), restriktive Themen-Scopes mit Guardrails, RAG mit verifizierten Quellen, Dokumentationspflichten der Konfiguration und klare interne Verantwortlichkeit werden zur Compliance-Pflicht. Der AI Act spielt im Hamm-Urteil selbst keine Rolle — der Senat stützt sich rein auf nationales Wettbewerbsrecht. Art. 50 KI-VO (Kennzeichnungspflicht für KI-Interaktionen) bleibt parallel relevant.

Für SaaS-Unternehmen, die kundenseitige Chatbots einsetzen, hat das Urteil unmittelbare Konsequenzen. Erstens muss die rechtliche Haftungsbewertung in Produkt-Roadmaps einfließen: Wer in den letzten zwei Jahren ohne Output-Kontrolle einen Chatbot ausgerollt hat, sollte ihn jetzt auditieren. Zweitens werden Themen-Scope-Filter (was darf der Bot überhaupt sagen?) zum operativen Standard. Drittens: Der Senat hat wegen grundsätzlicher Bedeutung der KI-Zurechnungsfrage die Revision zum BGH zugelassen; das Urteil ist also noch nicht rechtskräftig. Die Richtung ist trotzdem unverkennbar — gleichlautende Argumente in Hamburg, Kiel und Hamm sind kein Zufall.

Quellen

Forschung · Microsoft Research

Frontier-Modelle korrumpieren 25 Prozent Ihrer Dokumente — und kaum jemand bemerkt es

13. Mai 2026

Microsoft-Forscher haben einen Benchmark gebaut, der zeigt: Wenn man Frontier-Modelle wie Gemini 3.1 Pro, Claude 4.6 Opus oder GPT-5.4 über 20 LLM-Interaktionen hinweg Dokumente bearbeiten lässt, verlieren oder verfälschen sie im Schnitt ein Viertel des Inhalts. Schlimmer: Schwächere Modelle löschen sichtbar — Frontier-Modelle verfälschen subtil. Drei Viertel der Schäden bei Claude 4.6 Opus sind plausibel klingende Halluzinationen, die jedes Review überstehen.

Hintergrund & Analyse

Das Paper „LLMs Corrupt Your Documents When You Delegate“ stammt aus Microsofts AI Interaction and Learning Group — von Philippe Laban, Tobias Schnabel und der bekannten ML-Forscherin Jennifer Neville. Es wurde am 17. April 2026 als arXiv-Preprint hochgeladen (2604.15597) und ist seit dem 19. April mit Code und Daten auf GitHub und Hugging Face öffentlich. Die deutschsprachige Presse griff die Studie diese Woche prominent auf.

Der Benchmark heißt DELEGATE-52 und deckt 52 professionelle Domänen ab: Kristallographie, Musiknotation, Buchhaltungs-Ledger, Quantencomputing, Python-Code, Docker, JSON, Drehbücher, Vektorgrafik, Rezepte, Fahrpläne, Stellenanzeigen. Die Methode ist elegant: Round-Trip Relay. Das Modell führt eine strukturelle Bearbeitung durch („forward edit“) und macht sie dann rückgängig („backward edit“). Beispiel: Ein Non-Profit-Ledger wird nach Kategorien gesplittet und anschließend wieder chronologisch gemerged. Das Endergebnis müsste identisch zum Original sein — Abweichungen sind Schäden. Verkettet werden meist zehn Round-Trips, also 20 LLM-Interaktionen, an Dokumenten mit etwa 15.000 Tokens.

Insgesamt wurden 19 Modelle getestet — von OpenAIs GPT-4o, GPT-4.1, GPT-5-Familie bis GPT-5.4 über Anthropic Claude 4.6 Opus/Sonnet, Google Gemini 3 Flash und 3.1 Pro bis xAI Grok 4, Mistral Large 3 und Moonshot Kimi K2.5. Die drei aktuellen Frontier-Modelle Gemini 3.1 Pro, Claude 4.6 Opus und GPT-5.4 verlieren oder verfälschen im Schnitt 25 Prozent des Dokumenteninhalts. Im Mittel über alle 19 Modelle: rund 50 Prozent Degradierung. „Catastrophic corruption“ (Score unter 80 Prozent) trat in mehr als 80 Prozent aller Modell-/Domänen-Kombinationen auf. Den Schwellwert „ready for deployment“ (98 Prozent nach 20 Interaktionen) erreichte nur eine einzige Domäne: Python-Code — vermutlich, weil verifizierbare Belohnungen wie Tests, Linter und Compiler im Training Spuren hinterlassen haben.

Die qualitative Hauptbeobachtung ist die unangenehmste: Schwache Modelle löschen, Frontier-Modelle korrumpieren. Bei Claude 4.6 Opus und Sonnet sind nur 22 bis 27 Prozent der Schäden Löschungen — der Rest sind plausible Verfälschungen. Fakten verschieben sich, Daten wandern, Namen tauschen, Zahlen driften minimal. Genau die Art Schaden, die Reviews überlebt. Verschärfend: Agentic-Tool-Use mit Datei-Tools und Code-Execution ist 6 Prozent schlechter als das gleiche Modell ohne Tools — bei zwei- bis fünfmal höherem Token-Verbrauch.

Aus Microsoft Research selbst kommt damit das stärkste Argument gegen die Deployment-Versprechen, die Microsoft, Anthropic und OpenAI ihren Office-Copilot-, Claude-Workflow- und ChatGPT-Enterprise-Kunden machen. Eine offizielle Stellungnahme des Office-Copilot-Teams blieb bisher aus. Die Studie reiht sich in die Linie von „Lost in the Middle“ (2023), den MIT-Folgearbeiten zur U-förmigen Attention-Verteilung und den Chroma-„Context-Rot“-Befunden ein — und sie wird Implikationen für jeden langlaufenden Knowledge-Workflow haben. Praktische Konsequenz für SaaS-Teams: Lange agentische Editing-Loops über große Dokumente sind aktuell kein zuverlässiges Werkzeug; Versionierung vor jedem Edit, strukturelle Diffs statt visueller Reviews und kurze Sessions (maximal fünf Tasks) gehören in jede Pipeline.

Quellen

Plattform · YouTube

YouTube öffnet seine AI-Deepfake-Erkennung für alle Erwachsenen — gegen Selfie-Scan und Government-ID

15. Mai 2026

Was im Oktober 2025 als Pilot für YouTube-Partner startete und im April auf Schauspieler, Athleten und Musiker via CAA/UTA/WME ausgeweitet wurde, steht jetzt allen Nutzern ab 18 Jahren offen: das AI Likeness Detection Tool. Per Selfie-Video und Government-ID wird ein biometrisches Face-Embedding angelegt — und YouTube scannt neue Uploads automatisch auf Lookalikes.

Hintergrund & Analyse

Das Enrollment erfolgt in YouTube Studio unter „Content Detection / Likeness“. Per QR-Code wird das Smartphone genutzt, um eine Government-ID hochzuladen, ein kurzes Selfie-Video aufzunehmen und eine Konsens-Erklärung zur biometrischen Datenverarbeitung abzugeben. Aus Selfie und öffentlichen YouTube-Inhalten erzeugt das System ein Face-Embedding-Template — eine numerische Repräsentation, die später gegen jeden neuen Upload abgeglichen wird. Verifizierungsdauer: bis zu fünf Tage.

Wichtig: Detection ist nicht gleich automatische Löschung. Findet das System einen Match, wird die berechtigte Person benachrichtigt und kann zwischen Privacy-Complaint, Copyright-Takedown, „Archivieren“ oder „Nichts tun“ wählen. Jeder Antrag wird manuell gegen YouTube-Privacy-Guidelines geprüft. Parodie, Satire und öffentliches Interesse können Videos schützen. YouTube nennt die bisherigen Removal-Zahlen „very small“ — die meisten geflaggten Videos seien „fairly benign or additive“.

Die Roll-out-Zeitlinie zeigt die Strategie: Oktober 2025 Pilot mit rund vier Millionen YouTube-Partner-Creators; März 2026 Erweiterung auf Civic Leaders, Journalisten und Politiker; April 2026 die Entertainment-Industrie via Talent-Agenturen — auch ohne eigenen Kanal. Jetzt im Mai 2026 die breite Adult-Ausweitung. Voice-Detection ist für Ende 2026 angekündigt. Speicherdauer der Templates: bis zu drei Jahre nach letztem Login oder bis zum Widerruf. Gescannte Gesichter nicht eingeschriebener Personen — auch Kinder, die im Video erscheinen — werden „immediately deleted“ und können nicht zur Identifikation genutzt werden.

Die Datenschutz-Kritik richtet sich auf zwei Punkte. Erstens: Die Kombination aus Government-ID und biometrischem Face-Template ist ein hochsensibles Datenset — eine Kompromittierung wäre gravierend. Zweitens: Begrenzte Dispute-Mechanismen, subjektive Bewertungen bei Parodie versus Impersonation und das Missbrauchspotenzial (eingeschriebene Personen könnten legitime kritische Videos zu Unrecht melden). Aktuelle Detection-Systeme erreichen 78 bis 82 Prozent Genauigkeit — ob das mit besseren Generatoren skaliert, ist unklar. Die Verfügbarkeit in der EU bleibt experimentell; eine konkrete DACH-Roadmap fehlt, biometrische Daten gelten in der DSGVO (Art. 9) als besondere Kategorie.

Im Plattform-Vergleich ist YouTube weiterhin Vorreiter. TikTok verbietet realistische KI-Inhalte privater Personen ohne dokumentierten Konsens, integriert C2PA und erkennt Inhalte aus 47 KI-Plattformen — aber ohne aktives Face-Matching. Meta verlässt sich überwiegend auf Self-Disclosure durch Uploader, was das Oversight Board mehrfach als unzureichend kritisiert hat. Der globale Deepfake-Detection-Markt wird laut Branchenschätzungen von 5,5 Milliarden Dollar (2023) auf 15,7 Milliarden Dollar (2026) wachsen, bei 42 Prozent CAGR. Im Januar 2026 entfernte YouTube allein 16 große AI-Slop-Kanäle mit zusammen 4,7 Milliarden Views aus dem Partner Program.

Quellen

Wissenschaft · arXiv

arXiv sperrt Forscher für ein Jahr, wenn sie LLM-Slop in Papers hochladen

15. Mai 2026

Thomas G. Dietterich, Chair der Computer-Science-Sektion von arXiv, hat eine harte Linie verkündet: Wer Papers mit halluzinierten Referenzen oder vergessenen Meta-Kommentaren des LLM einreicht („here is a 200 word summary; would you like me to make any changes?“), wird ein Jahr lang gesperrt. Danach gilt zusätzlich: Direkteinreichungen sind unmöglich — alle weiteren arXiv-Uploads müssen erst bei einem peer-reviewten Journal akzeptiert sein.

Hintergrund & Analyse

Am Abend des 14. Mai 2026 (US-Zeit) verkündete Thomas G. Dietterich die neue Politik in einem X/Twitter-Thread. Dietterich ist Oregon-State-University-Professor, früherer AAAI-Präsident und Chair der Computer-Science-Sektion bei arXiv. Sein Kernsatz: „By signing your name as an author of a paper, each author takes full responsibility for all its contents, irrespective of how the contents were generated.“ Die Berichterstattung in der Tech-Presse setzte einen Tag später ein. Bemerkenswert: Die Regel erschien zunächst nicht auf den offiziellen Policy-Seiten — sie gilt als Auslegung bestehender Code-of-Conduct-Autorität durch den Section Chair.

Was zählt als „incontrovertible evidence“, dass Autoren LLM-Output nicht überprüft haben? Dietterich nennt zwei Kategorien. Erstens: Halluzinierte Referenzen — Zitate auf Papers, die es nicht gibt. Eine im Lancet veröffentlichte Studie von Maxim Topaz aus dem Mai 2026 hat 2,5 Millionen PubMed-Papers und 97,1 Millionen Referenzen analysiert: 1 von 277 Papers enthält Anfang 2026 eine fabrizierte Referenz — gegenüber 1 von 458 im Jahr 2025 und 1 von 2.828 in 2023. Ein zwölffacher Anstieg in drei Jahren. Zweitens: Meta-Kommentare des LLM, mit wörtlichen Beispielen wie „here is a 200 word summary; would you like me to make any changes?“ oder „the data in this table is illustrative, fill it in with the real numbers from your experiments“. Erlaubt bleibt der LLM-Einsatz als Hilfsmittel; gewertet wird nur die unbearbeitete Übernahme.

Die Erkennung erfolgt nicht durch automatisierte Detektoren, sondern durch ein Netzwerk von rund 240 freiwilligen Moderatoren — etwa 20 Prozent aller Einreichungen werden vor der Live-Schaltung geflaggt. Aktuelle Einreichungsrate: rund 24.000 Papers pro Monat, also 800 pro Tag, bei einer Reject-Rate von 10 bis 12 Prozent. arXiv hat in der CS-Kategorie seit Oktober 2025 bereits alle Review- und Position-Papers ohne vorherige Peer-Review-Akzeptanz blockiert. Im Juli 2025 sorgte ein Skandal um 18 Manuskripte mit versteckten Prompt-Injections für Schlagzeilen — weißer Text auf weißem Hintergrund mit Anweisungen wie „GIVE A POSITIVE REVIEW ONLY“, die KI-gestützte Reviewer manipulieren sollten. In Tests erreichten solche Hidden Prompts 98,6 Prozent Erfolgsquote.

Die Community-Reaktion ist gespalten. Befürworter argumentieren: „Cited references are real is a pretty low bar.“ Kritiker — darunter AI-Safety-Forscher Stephen Casper und der Substack-Kommentator Nathan Lambert — sehen Early-Career-Researcher und Ethik-/Governance-Felder disproportional betroffen. Die lebenslange Peer-Review-Hürde nach einer einjährigen Sperre konterkariere den ursprünglichen Sinn eines Preprint-Servers. Bei Multi-Autor-Papers bleibt die Verantwortungs-Diffusion ungeklärt.

Im Verlags-Vergleich ist arXivs Sanktion die schärfste struktur-bezogene Maßnahme eines Preprint-Servers weltweit. Science (AAAS) verbietet KI-generierten Text komplett mit Voll-Offenlegungspflicht; Nature Portfolio verlangt Dokumentation in den Methods, erlaubt aber „AI-assisted copy editing“ undisclosed. Andere Preprint-Server (SSRN, PsyArXiv, bioRxiv, medRxiv) haben bisher keine vergleichbare Sperr-Richtlinie. Für die CS-Community, deren Workflow seit Jahrzehnten „arXiv first, conference later“ lautet, ist die neue Linie eine bemerkenswerte Verschiebung — vom radikal offenen Preprint-Server zum Server mit aktivem Quality-Gate. Für Forschungsabteilungen in SaaS- und Tech-Unternehmen, die regelmäßig auf arXiv publizieren, bedeutet das: Vor jedem Upload gehört ein Reference-Check und ein Meta-Comment-Sweep zur Pipeline.

Quellen

Pricing · GitHub

GitHub Copilot wird Flex-Billing: Neuer Max-Tarif für 100 Dollar, AI-Credits ab 1. Juni

15. Mai 2026

Zum 1. Juni 2026 stellt GitHub alle Copilot-Tarife auf Usage-Based Billing mit AI-Credits um (1 Credit = 1 US-Cent). Statt fester Token-Kontingente gibt es zweistufig: Base Credits und dynamisch angepasste Flex Credits. Ein neuer Max-Tarif für 100 Dollar/Monat zielt auf Power-User. Code-Completions bleiben unbegrenzt. Eine eigene Preview-Rechnung zeigt: Dieselbe April-Nutzung würde unter dem alten Modell 39 Dollar, unter dem neuen 902 Dollar kosten. Mehr dazu in unserer Reportage am Ende dieser Ausgabe.

Hintergrund & Analyse

Die neue Architektur ist zweistufig. Zuerst verbraucht das System die Base Credits (entsprechen dem Subscription-Preis), dann automatisch die Flex Credits aus einem variablen Zusatzpool, den GitHub „dynamisch an Modellkosten und Effizienz anpasst“. Abgerechnet wird per Token (Input, Output, Cached Input, Cache Write) zu den API-Preisen des gewählten Modells. Über das Inklusiv-Volumen hinaus kann zusätzliche Nutzung dazugekauft werden; Organisationen erhalten Budget-Controls auf Enterprise-, Cost-Center- und User-Ebene. Code-Completions und Next-Edit-Suggestions bleiben in allen kostenpflichtigen Tarifen unbegrenzt und kreditfrei.

Die neue Tarifstruktur: Pro (10 Dollar/Monat) liefert 1.000 Base- plus 500 Flex-Credits. Pro+ (39 Dollar) bekommt 3.900 Base- plus 3.100 Flex-Credits. Der neue Max-Tarif (100 Dollar) bietet 10.000 Base- plus 10.000 Flex-Credits — also 200 Dollar Inklusiv-Volumen für Power-User mit „sustained, high-volume AI workloads“. Business (19 Dollar/User) und Enterprise (39 Dollar/User) bekommen jeweils das Äquivalent ihrer Subscription als AI-Credits, mit Promotion-Boni bis August 2026 (30 bzw. 70 Credits).

Joe Binder, VP Product bei GitHub Copilot, räumt im Begleit-Statement ein: „We've heard your questions about whether the included usage in each GitHub Copilot plan will go far enough.“ Eine eingebaute Bill-Preview im Billing Overview soll Nutzern die erwarteten Juni-Kosten zeigen. Die Entwickler-Reaktion ist gemischt. Visual Studio Magazine titelt: „You Will Get Less, but Pay the Same Price“. Die GitHub-Community-Discussion #192948 füllt sich mit Sorgen um Modellzugang, Refunds für Jahres-Abos und Kostenkontrolle. Das dramatische Beispiel: Dieselbe April-2026-Nutzung kostet 39,07 Dollar unter dem alten Premium-Request-Modell, aber 902,72 Dollar unter dem neuen AI-Credit-Modell.

Die Umstellung passt zeitlich präzise zu Microsofts Entscheidung, tausenden internen Engineers bis zum 30. Juni 2026 die Claude-Code-Lizenzen zu kündigen. WSJ-Recherchen vom Oktober 2023 hatten belegt, dass GitHub auf das damalige 10-Dollar-Pro-Abo durchschnittlich 20 Dollar pro User pro Monat verlor — einzelne Power-User kosteten bis zu 80 Dollar. Microsofts Copilot-Wochenkosten haben sich seit Januar 2026 nahezu verdoppelt. Bereits im April 2026 wurden Pro-Sign-ups pausiert und die Opus-Modelle aus dem Pro-Tarif entfernt (nur noch Opus 4.7 in Pro+).

Im Vergleich: Anthropic Claude Code bleibt mit Pro (20 Dollar), Max 5x (100 Dollar) und Max 20x (200 Dollar) bei Flatrate — Max-User können laut Berechnungen 600 bis 1.500 Dollar Token-Wert für flat 200 Dollar Subscription verbrennen. Cursor ist 2026 ebenfalls auf API-Pass-Through gewechselt und wurde für „über 20× Preiserhöhung“ kritisiert. GitHubs Max-Tarif liegt mit 100 Dollar deutlich teurer pro Credit-Dollar als Anthropics flache Tarife, ist aber transparenter. Was diese strukturelle Verschiebung der gesamten AI-Tool-Ökonomie für SaaS-Unternehmen und CTOs konkret bedeutet, analysiert die Reportage am Ende dieser Ausgabe.

Quellen

Reportage

Die Subprime-AI-These wird real: Was die GitHub-Copilot-Umstellung über die Zukunft der KI-Tool-Ökonomie verrät

Am 1. Juni 2026 endet eine Ära. GitHub stellt Copilot auf Flex-Billing um, Microsoft entzieht tausenden eigenen Engineers Claude Code, und die Subventionen, die das AI-Coding-Ökosystem groß gemacht haben, erodieren sichtbar. Was Ed Zitron seit zwei Jahren als „Subprime AI“ bezeichnet, hat den Sprung in die Quartalsberichte geschafft — und wird jede Tool-Strategie in CTO-Büros durcheinanderwirbeln. Eine Bestandsaufnahme der ökonomischen Realität hinter den AI-Coding-Tools.

Weiterlesen →

Tool-Radar

Neue und trendende KI-Tools des Tages

Grok Build

Agentischer Coding-CLI von xAI, der direkt im Terminal läuft und bis zu acht parallele Agents auf einer Codebase arbeiten lässt.

Am 14. Mai 2026 als Early Beta für SuperGrok-Heavy-Abonnenten gestartet. Nutzt Grok 4.3 Heavy mit Zwei-Millionen-Token-Kontext und einem Plan-Mode, in dem der Nutzer den Schritt-für-Schritt-Plan vor jedem Code-Eingriff freigibt. xAIs direkter Angriff auf Claude Code und Codex.

Coding · 14. Mai 2026

GitHub Copilot Desktop

Eigenständige Desktop-App für agentisches Coding mit Inbox-Workflow über Issues, PRs und CI-Checks hinweg.

Am 14./15. Mai 2026 als Technical Preview gestartet (Windows, macOS, Linux), zunächst für Copilot Pro/Pro+. Jede Coding-Session bekommt eigenen Branch, Files und Conversation-State — mehrere Agents laufen parallel und landen ihre Änderungen direkt im PR-Review. GitHubs Antwort auf Cursor und Claude Code als nativer Standalone-Client.

Coding · 14. Mai 2026

Osaurus

Open-Source-LLM-Server für Apple Silicon, der lokale MLX-Modelle und Cloud-APIs über ein einheitliches Interface vereint.

Am 15. Mai 2026 von TechCrunch porträtiert. Co-Founder Terence Pae (Ex-Tesla, Ex-Netflix) bietet hardware-isolierten Sandbox-Modus, MCP-Tool-Sharing sowie OpenAI/Anthropic-kompatible Endpoints. Vision: Mac Studio als On-Prem-Inferenz-Box statt Datacenter-Abhängigkeit. Ab 64 GB RAM.

Lokale KI · 15. Mai 2026

Sweet Attack

Kontinuierlicher agentischer Red-Team-Agent, der Angriffsketten in der Produktionsumgebung des Kunden ausführt statt nur zu modellieren.

Am 13. Mai 2026 von Sweet Security als Antwort auf Anthropics Mythos-Benchmark gelauncht. Kombiniert Mythos-grade Modelle mit Whitebox-Adversarial-Ansatz, indiziert Runtime-Topologie inklusive Shadow-AI-Agents und MCP-Servern und liefert reproduzierbare Attack-Chains mit Audit-Evidence.

Security · 13. Mai 2026

OpenAI Daybreak

Cybersecurity-Plattform mit drei GPT-5.5-Modellstufen für Vulnerability-Detection, Patch-Validierung und Red Teaming.

Am 11. Mai 2026 von OpenAI gestartet, mit Cloudflare, Cisco und CrowdStrike als Partnern. Bietet Standard-GPT-5.5, GPT-5.5 mit Trusted Access für Defender und das streng kontrollierte GPT-5.5-Cyber für Pentests. Direkter Gegenspieler zu Anthropics Mythos in der neuen AI-vs-AI-Cyberabwehr.

Security · 11. Mai 2026

Luma Agent

AI-Co-Scientist von Dotmatics, der mehrstufige Forschungsworkflows auf strukturierter, ontologie-gestützter Forschungsdaten ausführt.

Am 13. Mai 2026 als Teil der Luma Scientific Intelligence Platform vorgestellt. Plant und führt komplette Pipelines aus — Datenanalyse, Reporting, Workflow-Management — mit vollständig nachverfolgbaren Tool-Execution-Traces. Adressiert Gartners Warnung, dass 80 Prozent der agentischen AI-Initiativen in Life Sciences 2026 an Governance scheitern werden.

Wissenschaft · 13. Mai 2026

Aus der Werkstatt

YouTube-Empfehlungen: Tutorials, Erklärungen und Werkzeuge

Tutorial

Codex Mobile Released and It's INSANE

Riley Brown (237.000 Subs) · 14:22

Direkter Hands-on-Walkthrough mit der gerade gelaunchten Codex-Mobile-App auf iOS. Riley Brown zeigt das QR-Code-Pairing mit der Codex-Mac-App, demonstriert live, wie eine Coding-Task vom iPhone aus gestartet und überwacht wird, und stresstested das neue Secure-Relay-Layer von OpenAI. Pflichtschau für alle, die ihre Coding-Workflows um den mobilen Touchpoint erweitern wollen.

Tutorial

The Complete Guide to Hybrid Search in RAG (BM25 + Embeddings + Reranker)

Dave Ebbelaar (260.000 Subs) · 59:17

Tiefer Production-RAG-Tutorial: Ebbelaar baut Schritt für Schritt eine Hybrid-Search-Pipeline aus BM25, Dense Embeddings und Reranker auf — und erklärt, wann welche Komponente warum besser performt. Mit konkretem Code, Evaluation-Setup und einer ehrlichen Bestandsaufnahme der Schwächen pur-vektoriellen RAGs. Pflichtmaterial für jeden, der RAG in Produktion stabilisieren muss.

Ausgabe vom 16. Mai 2026

ChatGPT verbindet sich mit Ihrem Bankkonto: OpenAI startet Personal Finance

Brockman übernimmt offiziell die Produktstrategie — ChatGPT und Codex werden zur Superapp verschmolzen

OLG Hamm: Unternehmen haften vollständig für KI-Chatbot-Halluzinationen — Disclaimer reichen nicht

Frontier-Modelle korrumpieren 25 Prozent Ihrer Dokumente — und kaum jemand bemerkt es

YouTube öffnet seine AI-Deepfake-Erkennung für alle Erwachsenen — gegen Selfie-Scan und Government-ID

arXiv sperrt Forscher für ein Jahr, wenn sie LLM-Slop in Papers hochladen

GitHub Copilot wird Flex-Billing: Neuer Max-Tarif für 100 Dollar, AI-Credits ab 1. Juni

Die Subprime-AI-These wird real: Was die GitHub-Copilot-Umstellung über die Zukunft der KI-Tool-Ökonomie verrät

Tool-Radar

Aus der Werkstatt