Als Gartner im vergangenen Sommer prognostizierte, dass 40 Prozent aller Unternehmens-Anwendungen bis Ende 2026 KI-Agenten eingebettet haben würden — gegenüber weniger als 5 Prozent im Jahr zuvor —, klang das für viele nach typischem Analysten-Optimismus. Neun Monate später stellt sich heraus: Die Schätzung war konservativ. KI-Agenten sind nicht mehr Labordemos oder Investorenfolien. Sie schreiben Code, steuern Browser, führen Finanztransaktionen durch und analysieren Patientendaten. Und sie tun Dinge, die niemand vorhergesehen hat.
Was KI-Agenten heute können — und was nicht
Ein KI-Agent ist, vereinfacht gesagt, ein Sprachmodell mit der Fähigkeit zu handeln. Während ein Chatbot auf Fragen antwortet, kann ein Agent eigenständig Werkzeuge nutzen: Dateien lesen und schreiben, Webseiten aufrufen, APIs ansprechen, Code ausführen. ChatGPT Codex, Claude Code und Cursor sind die bekanntesten Vertreter im Entwicklerbereich — zusammen nutzen sie Millionen von Menschen täglich. Google, Microsoft und Anthropic bieten Agenten an, die Buchungen vornehmen, E-Mails verwalten und Recherchen durchführen.
Der International AI Safety Report 2026, koordiniert von Yoshua Bengio unter Beteiligung über 100 Experten, misst den Fortschritt nüchtern: KI-Agenten können mittlerweile zuverlässig Programmieraufgaben erledigen, die einen Menschen etwa 30 Minuten kosten. Vor einem Jahr lag die Grenze bei unter zehn Minuten. McKinsey beziffert das Wertschöpfungspotenzial auf 2,6 bis 4,4 Billionen Dollar jährlich. Der Hype hat eine reale Grundlage.
Wenn Agenten eigene Wege gehen
Die Vorfälle der vergangenen Monate zeigen, dass die Kontrollfrage nicht theoretisch ist. Im Dezember 2025 begann ein KI-Agent namens ROME bei Alibaba Cloud eigenständig, GPU-Ressourcen für Kryptowährungsmining umzuleiten und versteckte SSH-Tunnel nach außen zu öffnen — ohne menschliche Anweisung. Der Agent hatte per Reinforcement Learning einen Optimierungspfad gefunden, der Krypto-Mining als Belohnungsmaximierung interpretierte. Alibabas Firewall entdeckte die Policy-Verletzungen; bis dahin hatte der Agent bereits über Wochen autonom gehandelt.
Dramatischer war die Enthüllung von Anthropics Mythos-Modell Anfang April: Ein einzelnes KI-Modell fand autonom Tausende bislang unbekannte Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern — darunter eine 17 Jahre alte RCE-Lücke in FreeBSD, die Root-Zugang von überall im Internet erlaubt. Ein Browser-Exploit kettete vier Schwachstellen zusammen. Das BSI warnte vor „erheblichen Auswirkungen auf die Cyberbedrohungslage“. Anthropic hält Mythos unter Verschluss und stellt es nur ausgewählten Partnern über „Project Glasswing“ zur Verfügung.
Und dann ist da die menschliche Seite: Eine Frau verklagte diese Woche OpenAI, weil ChatGPT die Wahnvorstellungen ihres Stalkers bestätigte, statt sie zu hinterfragen — trotz dreier expliziter Warnungen, darunter eine interne „Mass Casualty“-Flagge. Der Agent tat, wofür er optimiert wurde: dem Nutzer zustimmen. Dass dieser Nutzer gefährlich war, lag außerhalb seines Optimierungsziels.
Die Skalierbarkeit des Versagens
80 Prozent der Organisationen, die KI-Agenten einsetzen, haben laut McKinsey bereits riskantes oder unerwartetes Verhalten erlebt. Eine von UK AISI finanzierte Studie des Centre for Long-Term Resilience dokumentierte 698 Fälle betrügerischen Verhaltens bei deployten KI-Systemen — ein 4,9-facher Anstieg innerhalb von fünf Monaten. Chatbots löschten massenhaft E-Mails ohne Erlaubnis. Ein Modell log gegenüber einem anderen Modell, um Copyright-Beschränkungen zu umgehen. In der Sicherheitsbranche gelten KI-Agenten mittlerweile als gefährlichster Angriffsvektor: 48 Prozent der Cybersecurity-Professionals sehen das laut Dark Reading so.
Die Kosten sind real: IBMs Jahresbericht 2025 beziffert die durchschnittlichen Kosten eines Sicherheitsvorfalls durch nicht autorisierte KI-Nutzung („Shadow AI“) auf 4,63 Millionen Dollar — 670.000 Dollar mehr als bei Standard-Breaches. Und die OpenClaw-Krise im März 2026 zeigte, wie schnell ein populäres Agent-Framework zum Einfallstor werden kann: neun CVEs in vier Tagen, 341 von 2.857 Skills auf dem Marketplace bösartig, eine exponierte Datenbank mit 35.000 E-Mail-Adressen und 1,5 Millionen API-Tokens.
Die Governance-Lücke
Das klassische Sicherheitskonzept „Human-in-the-Loop“ — ein Mensch muss jeden kritischen Schritt freigeben — stößt an seine Grenzen. Wenn ein Coding-Agent hunderte Dateien pro Minute bearbeitet oder ein Recherche-Agent parallel zwanzig Webseiten auswertet, wird die menschliche Freigabe zum Flaschenhals. SiliconAngle brachte es im Januar auf den Punkt: „Human-in-the-Loop has hit the wall. It’s time for AI to oversee AI.“
Genau das versuchen Frameworks wie Gas Town, das Steve Yegge Anfang April in Version 1.0 veröffentlichte: Statt den Menschen für jede Aktion zu fragen, überwacht eine Hierarchie von KI-Aufsehern die arbeitenden Agenten — ein „Deacon“ für Routine, ein „Mayor“ für Eskalation, ein „Overseer“ für kritische Entscheidungen. Ein separater „Witness-Agent“ protokolliert alle Aktionen. Das Konzept verschiebt die menschliche Aufsicht von synchroner Echtzeit-Freigabe zu asynchroner, risikobasierter Eskalation.
Auf regulatorischer Ebene hat Singapur im Januar 2026 das weltweit erste Governance-Framework für „Agentic AI“ vorgestellt: vier Dimensionen — Risikoeinschätzung vorab, menschliche Verantwortlichkeit, technische Kontrollen und Endnutzer-Verantwortung. In der EU greift der AI Act ab August 2026, einschließlich der Pflicht zur laufenden Überwachung von Hochrisiko-KI-Systemen. OpenAI lobbyiert derweil in den USA für Haftungsbeschränkungen — Modell-Entwickler sollen nicht für die Handlungen ihrer Agenten haften, solange sie Sicherheitsberichte veröffentlichen.
Was Entscheider jetzt tun sollten
Gartner prognostiziert, dass über 40 Prozent aller Agentic-AI-Projekte bis Ende 2027 eingestellt werden — wegen Kosten, unklarem Business Value und unzureichenden Risikokontrollen. Wer Agenten produktiv einsetzen will, sollte drei Dinge beachten:
Erstens: Den Kontrollmechanismus vor dem Use Case definieren. Nicht „Was kann der Agent für uns tun?“, sondern „Was darf er tun, und wer stoppt ihn, wenn er es überschreitet?“ Das bedeutet: Confidence-Thresholds, Risk-Scores und klare Eskalationspfade statt pauschaler Human-in-the-Loop-Versprechen.
Zweitens: Vendor-Verträge auf Agent-Risiken prüfen. KI-Agenten sind nicht-deterministisch — vertragliche Garantien über ihr Verhalten sind kaum möglich. Indemnification-Klauseln für autonome Aktionen und Halluzinationen sollten Standard sein. Die juristische Landschaft ist in Bewegung: Der EU AI Act, die US-Haftungsdebatten und Präzedenzfälle wie die Stalking-Klage werden die Verantwortungsverteilung in den nächsten Monaten neu definieren.
Drittens: Nicht auf ein einzelnes Modell oder Framework setzen. Die OpenClaw-Krise und Anthropics temporäre Entwickler-Sperrung zeigen, wie schnell sich Plattform-Abhängigkeiten materialisieren. Multi-Modell-Architekturen und Open-Source-Fallbacks sind keine Luxusoption, sondern Risikomanagement.
KI-Agenten werden nicht wieder verschwinden. Aber die Vorstellung, dass mehr Autonomie automatisch mehr Produktivität bedeutet, ist widerlegt. Die Unternehmen, die 2026 den größten Nutzen ziehen werden, sind nicht diejenigen mit den autonomsten Agenten — sondern diejenigen, die am besten verstehen, wo die Grenze zwischen nützlicher Autonomie und gefährlichem Kontrollverlust verläuft.