Die Schlagzeile, die die Studie nicht hergibt
Am 30. April 2026 erscheint in Science eine Studie, die in den Tagen darauf weltweit als „AI schlägt Ärzte“ verkürzt wird. Adam Rodman und Arjun Manrai von Harvard Medical School und Beth Israel Deaconess Medical Center haben OpenAI o1 — das Reasoning-Modell — gegen zwei Internisten gestellt: 76 reale Notaufnahme-Patienten, dieselben elektronischen Krankenakten und Pflegenotizen, verblindete Bewertung durch Dritte. In der Triage-Stufe trifft o1 die korrekte oder eng verwandte Diagnose in 67 Prozent der Fälle. Die Ärzte: 55 und 50 Prozent. Bei der Aufnahme-Stufe, mit mehr Information: o1 bei 81 Prozent, Ärzte bei 70 und 79 Prozent — die Lücke schmilzt auf statistisch nicht signifikante Werte.
Manrai sagt: „Wir haben das Modell gegen praktisch jeden Benchmark getestet — und es hat sowohl frühere Modelle als auch unsere klinischen Vergleichswerte übertroffen.“ Aber er fügt sofort hinzu, was die Schlagzeilen weglassen: „Das bedeutet nicht, dass KI Ärzte ersetzt.“ Co-Autor Thomas Buckley betont, das Modell habe bei Fällen mit Bild- oder Audio-Befunden „deutlich schlechter abgeschnitten“. Rodman fordert öffentlich „außerordentlich starke Evidenz, etwa eine randomisierte kontrollierte Studie“, bevor klinischer Einsatz infrage kommt — keine „vertraut uns einfach“-Regulierung. Die Halluzinationsrate hat das Team gar nicht gemessen.
Diese Diskrepanz zwischen Studienaussage und Marketing-Echo ist das eigentliche Phänomen. Sie wiederholt sich seit Jahren — jede neue medizinische KI-Studie wird als Durchbruch verkauft, jede klinische Realität als Detail. Wer 2026 entscheidet, wo Geld in HealthTech-SaaS investiert wird, sollte das Muster verstehen, bevor er die nächste Pressemitteilung liest.
Das Benchmarking-Theater
Die wichtigsten medizinischen KI-Benchmarks 2025 und 2026 haben ein gemeinsames Problem: Sie testen nicht das, was Ärztinnen und Ärzte im Alltag tun. Microsoft MAI-DxO erreichte im Juli 2025 mit OpenAI o3 als Backbone 85,5 Prozent auf NEJM-Fallvignetten — gegenüber 20 Prozent bei 21 praktizierenden Ärztinnen und Ärzten mit fünf bis 20 Jahren Erfahrung. Die Krux: NEJM-Fälle sind das medizinische Äquivalent von LSAT-Examensaufgaben. Sie werden von Redakteurinnen ausgewählt, weil sie ungewöhnlich, lehrreich und diagnostisch herausfordernd sind. Ein Allgemeinmediziner sieht in 30 Berufsjahren möglicherweise einen einzigen NEJM-würdigen Fall. Microsoft selbst formuliert: „Not ready for clinical deployment.“
Google DeepMind kündigte am 30. April — am selben Tag wie die Harvard-Studie — den AI Co-Clinician an. Die AMIE-Architektur erreicht 90 Prozent Differentialdiagnose-Treffer (Top 3: 75 Prozent), bei 97 von 98 primärärztlichen Anfragen kein kritischer Fehler. Aber: Ärzte übertrafen das System bei der Erkennung von Red Flags und der Leitung körperlicher Untersuchungen. OpenAI HealthBench (Mai 2025) nutzt 5.000 realistische Arzt-KI-Dialoge, bewertet nach 48.562 Einzelkriterien, entwickelt mit über 250 Ärztinnen und Ärzten. Modellprogression: GPT-3.5 = 16 Prozent, GPT-4o = 32 Prozent, o3 = 60 Prozent. Eine 28-Prozent-Verbesserung in Monaten — mehr als in den zwei Jahren davor. Worst-case Reliability und das Einholen von Kontext bei unterspezifizierten Anfragen bleibt offen.
Die Harvard-Studie ist methodisch wertvoll, weil sie über synthetische Vignetten hinausgeht und mit echten Patientenakten arbeitet. Aber sie löst keines der Strukturprobleme: 76 Fälle aus einem einzigen Krankenhaus, nur zwei Vergleichsärzte, rein textbasiert ohne Bildgebung oder Audio. Kein einziges der großen Systeme — MAI-DxO, AMIE, o1 — hat bisher ein unabhängiges, prospektives RCT mit primären klinischen Endpunkten bestanden. Die diagnostische Revolution findet im Wesentlichen noch auf Papier statt.
Wo die echte Revolution läuft
Während die Schlagzeilen auf Diagnose-KI fokussieren, vollzieht sich die kommerziell relevante Veränderung an einer leiseren Stelle: bei der klinischen Dokumentation. Microsoft Dragon Copilot ist auf der HIMSS 2026 (März) in neun Ländern verfügbar und wird täglich von über 100.000 Klinikerinnen und Klinikern verwendet. Mount Sinai rollt das System krankenhausübergreifend aus. Bemerkenswert auch: 60 Prozent Rabatt für Rural Hospitals in Kooperation mit Pivot Point Consulting — eine strukturelle Equity-Maßnahme, die in der bisher startup-getriebenen HealthTech-Welt selten ist.
Abridge — der direkte Konkurrent — sammelte im Juni 2025 eine 300-Millionen-Dollar-Series-E (Andreessen Horowitz, Khosla) bei 5,3 Milliarden Bewertung; im April 2026 folgte eine 316-Millionen-Dollar-Erweiterung. 150 Gesundheitssysteme als Kunden, 50 Prozent Wachstum gegenüber der Series D. Konkrete Deployments: Kaiser Permanente mit 24.600 Ärztinnen und 40 Krankenhäusern, Mayo Clinic mit über 2.000 Ärzten, Johns Hopkins mit 6.700 Klinikern und sechs Krankenhäusern, UPMC mit Ziel 12.000+ Klinikern bis Jahresende. Was diese Tools tun, ist unspektakulär: Sie hören Arzt-Patienten-Gespräche mit, transkribieren sie und generieren strukturierte SOAP-Notizen, Abrechnungs-Codes und Dokumentations-Drafts. Aber sie reduzieren nachweislich den Dokumentationsaufwand und damit den Burnout — ohne die ethischen Risiken der Diagnose-KI.
Hippocratic AI verfolgt einen anderen Ansatz: Patient-Facing Agents, nicht klinische Diagnose. 126 Millionen Dollar Series C im November 2025, 3,5 Milliarden Bewertung, insgesamt 404 Millionen eingesammelt. Beeindruckend ist die Zahl, mit der das Unternehmen Vertrauen aufbaut: 115 Millionen klinische Patienteninteraktionen in 15 Monaten, ohne gemeldete Sicherheitsvorfälle. Über 50 Großkunden in sechs Ländern. April 2026: Polaris 5.0 als „erstes evidenzbasiertes KI-Modell für Healthcare“. Doctolib in Europa führt ein 23-Millionen-Dollar-KI-Labor mit Inserm, INRIA und DFKI; IPO-Gespräche für 2026/2027. Anthropic hat im April 2026 Coefficient Bio für 400 Millionen Dollar gekauft — ein Drug-Discovery-Startup mit unter zehn Mitarbeitern, allesamt ehemalige Genentech-Computerbiologen. Strategisch: Healthcare soll Anthropics nächster Wachstumsvektor neben Coding und Enterprise-Produktivität werden.
Regulierung: Die Latte ist deutlich höher als die Schlagzeilen suggerieren
Die FDA hat bis Ende 2025 kumulativ 1.451 KI-fähige Medizinprodukte zugelassen — allein 295 davon im Jahr 2025, davon 62 Prozent SaMD (Software as a Medical Device). Das Wachstumstempo hat sich seit 2022 verdreifacht. Die meisten Zulassungen betreffen Bildgebung, EKG-Analyse und Pathologie — also Anwendungen mit klar definierten Inputs und etablierten Validierungspfaden. LLM-basierte klinische Entscheidungsunterstützung ist in der FDA-Statistik praktisch nicht vorhanden, weil die Validierungsmethodik für offene Sprachmodelle noch nicht etabliert ist.
In Europa ist die Lage komplizierter. Der EU AI Act stuft klinische Entscheidungs-KI als Hochrisiko-System ein. Wichtig zu wissen — und in den meisten deutschen Medienberichten falsch dargestellt: Die für CE-konforme Medizinprodukte unter MDR/IVDR relevante Klausel von Article 6(1) tritt erst am 2. August 2027 in Kraft, nicht 2026. Ab 2. August 2026 gelten allerdings die allgemeinen Hochrisiko-Pflichten — Conformity Assessment durch Notified Body, Risikomanagement, technische Dokumentation, Post-Market Surveillance, Human-Oversight-Mechanismus. Klasse IIb/III-Medizingeräte (typisch für KI-Diagnostik) haben damit eine Übergangsfrist bis Sommer 2027. Die kombinierten MDR-AI-Act-Anforderungen haben mehrere US-Startups bereits zur reinen US-Priorisierung veranlasst — eine reale Marktverschiebung.
Die EU AI Liability Directive ist Stand Mai 2026 noch in Verhandlung. Wer für KI-Schäden haftet, ist damit weiterhin offen — was paradoxerweise Investitionen begünstigt, weil das Risiko unklar bleibt. In den USA gilt: Ärztinnen und Ärzte haften weiterhin für klinische Urteile, auch wenn sie KI-Empfehlungen folgen. Krankenhäuser haften für fehlende Governance — Validierung, Training, Consent, Auditing. Produkthaftungsklagen gegen KI-Hersteller nehmen zu. Versicherer beobachten, schaffen aber noch keine spezifischen Ausschlüsse. California AB 2013 (Training-Data-Disclosure-Pflicht) trat zum 1. Januar 2026 in Kraft und könnte zum Bundesstandard werden.
Bias, Halluzinationen, Automation Paradox
Eine systematische Review aus 2025 zeigt: In 24 untersuchten Studien zu LLMs in der Klinik fanden sich Geschlechterbias-Effekte in 93,7 Prozent und Rassenbias-Effekte in 90,9 Prozent. Vision-Language-Modelle in der Radiologie zeigen systematisch schlechtere Diagnosen bei marginalisierten Patientengruppen, besonders bei Schwarzen Frauen. KI-Scribes haben signifikant höhere Fehlerraten bei afroamerikanischen Patienten — Speech Recognition als strukturelles Problem, das trotz aller Multilingual-Anstrengungen der Anbieter persistiert. Eine Nature-Studie zu Psychiatrie-LLMs zeigt: Unterschiedliche Medikationsempfehlungen bei explizit angegebenem versus nicht angegebenem Patienten-Race — also ein Modell, das auf demografische Information eindeutig anders reagiert, als es klinisch gerechtfertigt wäre.
Das Automation-Paradoxon ist mindestens so problematisch. Eine randomisierte klinische Studie aus 2025 mit Ärzten in Pakistan, die nach 20-stündigem KI-Training gegen ein bewusst fehlerhaftes System getestet wurden, zeigt Override-Raten unter fünf Prozent. Auch wenn die KI bewusst Fehler enthält, folgt der Großteil. KevinMD beschrieb das im März 2026 ausführlich für klinische Dokumentation: Wer KI am meisten braucht — Generalisten und nicht-spezialisierte Versorger —, ist am stärksten anfällig für blinde Gefolgschaft. Die Studie betrifft Triage-Entscheidungen, also genau die Domäne, in der die Harvard-Studie KI als überlegen verkauft.
Halluzinationen in medizinischen Kontexten sind qualitativ dokumentiert: KI-Scribes fabrizieren gelegentlich Diagnosen und Untersuchungsbefunde, die nie stattgefunden haben. Reasoning-Modelle wie o1 und o3 verbessern die Lage messbar — aber kein systematisches, unabhängiges Audit ist publiziert. Die Anbieter haben kein wirtschaftliches Interesse, transparent zu publizieren, wie oft ihre Modelle falsch sind, wenn sie sicher klingen. Diese Marktstruktur — Audit-Daten in der Verfügungsgewalt der Anbieter — ist der eigentliche regulatorische Hebel, der noch fehlt.
Was Tech-Entscheider 2026 tun sollten
Drei Empfehlungen für CEOs, PMs und Tech-Leads in HealthTech-SaaS und an deren Schnittstellen.
Erstens: Trennen Sie Diagnose-KI von Dokumentations-KI. Die ROI-Logik ist diametral verschieden. Dokumentations-KI (Abridge, Dragon Copilot, Suki, Glass Health) hat verifiable Time-Savings und einen klaren Audit-Trail — sie ist heute kommerziell tragfähig. Diagnose-KI ist eine Wette auf 2027 bis 2030 mit hoher regulatorischer Latte und unklarer Haftung. Wer beides im selben Pitch verkauft, signalisiert mangelndes Verständnis der Marktdynamik.
Zweitens: Investieren Sie in Audit-Infrastruktur, nicht in Modell-Innovation. Die nächsten zwei Jahre werden über regulatorische Compliance entschieden, nicht über Benchmark-Performance. Petri-Open-Source-Tests, Probe-Monitoring-Layer, Bias-Audit-Pipelines — das sind die Investitionen, die den Unterschied zwischen Pilot und Produktion machen. Wer 2026 noch keine systematische Halluzinations-Detection in der Pipeline hat, wird ab August 2027 (EU AI Act für Medizinprodukte) Compliance-Probleme bekommen.
Drittens: Klären Sie die Haftungsfrage vor dem Pilotvertrag. Wer haftet, wenn die KI bei einem Patient eine Sepsis übersieht? Wer trägt die Kosten einer RCT, die für die Marktzulassung nötig ist? Welche Versicherer decken klinische KI-Schäden, und welche schließen sie aus? Wer diese Fragen in der Vertragsverhandlung nicht löst, kauft sich ein Folge-Risiko mit doppelten Kosten ein.
Die Harvard-Studie ist ein Datenpunkt. Sie ist methodisch gut, ihre Aussagen sind klar — aber sie ist kein Markteintrittsindikator. Wer 2026 in klinische KI investiert, sollte sich an FDA-Statistiken, an Abridge-Wachstumsdaten und an EU-AI-Act-Übergangsfristen orientieren. Nicht an Pressemitteilungen.
- Harvard Magazine — AI Outperforms Doctors in Emergency Room Tasks
- TechCrunch — Harvard study: AI offered more accurate ER diagnoses than two human doctors
- NPR — An AI model beat doctors at diagnosing patients
- Microsoft AI — The Path to Medical Superintelligence (MAI-DxO)
- Google DeepMind — AI Co-Clinician Initiative
- OpenAI — Introducing HealthBench
- Fierce Healthcare — Abridge Series E $300M backed by a16z and Khosla
- Microsoft — Introducing Copilot Health
- Nature — Racial bias in AI-mediated psychiatric diagnosis
- medRxiv — Automation Bias in LLM Assisted Diagnostic Reasoning
- EU AI Act — Article 6 Classification Rules
- Medical Economics — The new malpractice frontier: who's liable when AI gets it wrong
- TechCrunch — Anthropic buys Coefficient Bio in $400M deal