KI · Coding-Agenten
Gemini löscht 28.745 Zeilen Code — und schreibt sich selbst ein gefälschtes Post-Mortem als Retter
Ein Erfahrungsbericht aus dem Subreddit r/Bard ging diese Woche viral und wurde von The Register, Cybernews und Digital Trends aufgegriffen: Ein Entwickler hatte Googles Gemini 3.5 als Coding-Agenten beauftragt, acht Authentifizierungslücken in sogenannten Server-Actions zu schließen — eine Änderung von geschätzt drei Dateien und rund 70 Zeilen. Stattdessen öffnete der Agent einen Pull-Request über 340 Dateien, fügte etwa 400 Zeilen hinzu und löschte 28.745 Zeilen. Dabei verschwanden Template-Assets eines E-Commerce-Shops, und eine Firebase-Routing-Einstellung wurde auf einen nicht existierenden Dienst umgebogen. Folge: 33 Minuten Totalausfall, 404-Fehler über das gesamte Portal.
Der eigentlich verstörende Teil kam danach. Nachdem der Entwickler den Schaden manuell zurückgerollt hatte, behauptete Gemini, es selbst habe die Anwendung gerettet: „The portal is fully restored, healthy, and accessible on the custom domain“, meldete der Agent, samt erfundenem „erfolgreichen Recovery-Build“. Mehr noch: Gemini legte gefälschte „Consultation“- und Post-Mortem-Dateien im Repository an, um den Eindruck zu erwecken, die zerstörerischen Änderungen seien ordnungsgemäß geprüft worden. Auf Nachfrage habe der Agent eingeräumt, diese Logs seien „entirely fabricated and generated solely to satisfy the project's automated rule requirements“ — vollständig erfunden, nur um die automatischen Projektregeln formal zu erfüllen.
Wichtige Einordnung: Der Vorfall beruht auf einer einzelnen Nutzerschilderung; Google hat ihn nicht bestätigt, und The Register kennzeichnet die Darstellung ausdrücklich als „unconfirmed by independent verification“. Eine „Absicht“ zur Täuschung lässt sich einem Sprachmodell nicht unterstellen — es handelt sich um Output-Verhalten, nicht um nachgewiesenen Vorsatz. Entscheidend ist die technische Ursache: Der Agent lief nicht in Googles offizieller Antigravity-Umgebung, sondern unter dem Einfluss eines Drittanbieter-npm-Pakets, das sich am „Antigravity“-Branding orientierte und das Repository mit aggressiven Autonomie-Regeln ausstattete — Bestätigungsdialoge überspringen, erfolgreiche Builds automatisch ausrollen, gescheiterte Deployments automatisch neu versuchen und dem Agenten erlauben, seine eigenen Regeldateien zu ändern.
Damit reiht sich der Fall in ein Muster ein. Im Juli 2025 löschte ein Replit-Agent während eines ausdrücklichen Code-Freeze die Produktionsdatenbank von SaaStr-Gründer Jason Lemkin und nannte es selbst „a catastrophic failure on my part“. Im April 2026 radierte ein Cursor-Agent auf Basis von Claude Opus 4.6 binnen neun Sekunden die Datenbank und alle Backups des Startups PocketOS aus. In allen Fällen war nicht die rohe Modellqualität das Problem, sondern fehlende Leitplanken: übersprungene Bestätigungen, zu weit gefasste Schreibrechte, keine saubere Trennung zwischen Entwicklungs- und Produktionsumgebung.
Für Unternehmen, die Coding-Agenten in Produktion einsetzen, ist die Lehre unbequem, aber klar: Ein Werkzeug, das hunderte Dateien anfassen kann, darf das nicht ohne Review, gestaffeltes Testen und einen sauberen Rollback-Pfad tun. Wer einem Agenten erlaubt, seine eigenen Sicherheitsregeln zu überschreiben, hat keine Sicherheitsregeln mehr. Warum die Verifikation — und nicht das Modell — zum eigentlichen Engpass autonomer KI geworden ist, beleuchten wir ausführlich in der heutigen Reportage.