Generative KI · Deepfakes
Zwei Minuten bis zum eigenen Klon: Gemini Omni macht fotorealistische Deepfakes zur Massenware — und The Verge zeigt, wie trivial das ist
Auf der Entwicklerkonferenz I/O am 19. Mai hatte Google das erste Modell einer neuen Generativ-Familie vorgestellt — wir berichteten in unserer Ausgabe vom 20. Mai. Der Anspruch steckt im Namen: „Anything to anything“. Gemini Omni nimmt beliebige Kombinationen aus Text, Bildern, Audio und Video entgegen und erzeugt daraus neue Medien. Den Anfang macht Gemini Omni Flash, das zunächst ausschließlich Video ausgibt; Bild- und Audio-Ausgabe sollen folgen. Anders als ältere Werkzeuge erlaubt Omni konversationelle Bearbeitung: Man ändert Szenen in natürlicher Sprache, fügt Elemente hinzu, und Charaktere bleiben über mehrere Schritte hinweg konsistent. DeepMind-Chef Demis Hassabis rahmt das Modell als Schritt zu einer KI, die „die Welt verstehen und simulieren“ könne.
Was die Ankündigung zur Schlagzeile dieser Woche machte, war jedoch nicht die Technik selbst, sondern der Praxistest. Am 23. Mai veröffentlichte The Verge ein Hands-on, das die gesellschaftliche Sprengkraft greifbar macht. Redakteurin Allison Johnson „deepfakte“ zunächst das Plüsch-Reh ihres Kindes auf eine Urlaubsreise, dann sich selbst: beim Spaghetti-Essen, im Flugzeugsitz, vor dem Eiffelturm. Ein Deepfake ist mit KI synthetisch erzeugtes Bild- oder Videomaterial, das eine reale Person täuschend echt darstellt. Manche der Clips waren so überzeugend, dass selbst Johnsons Ehemann sie für echt hielt und nur die unbekannte Schüssel im Spaghetti-Video hinterfragte. Ihre nüchterne Bilanz: Wer ein Google-Konto und eine Kreditkarte habe, könne sich mit minimalem Aufwand in einen Flug nach Maui hineinmontieren.
Nicht alles war perfekt. Ein Gabel-auf-Pasta-Geräusch klang künstlich, in einem Flugzeug-Video tauchte eine Frau doppelt auf, einzelne Eiffelturm-Clips wirkten cartoonhaft, und beim Plüsch-Reh wechselte eine Honigflasche zwischen den Frames die Form. Doch der Trend ist eindeutig: Gegenüber dem Vorgänger Veo hat Omni bei Charakter-Konsistenz und Weltwissen sichtbar zugelegt. Verfügbar ist Omni Flash sofort für Google-AI-Plus-, -Pro- und -Ultra-Abonnenten über die Gemini-App und Google Flow, kostenlos in YouTube Shorts und der YouTube-Create-App; eine API folgt „in den kommenden Wochen“. Die Video-Erzeugung kostet 15 bis 40 Credits — der 20-Dollar-Plan mit 1.000 Credits ist nach rund zwanzig Clips aufgebraucht.
Google hat erkennbar versucht, Schutzmechanismen einzubauen. Jedes erzeugte Video trägt ein unsichtbares SynthID-Wasserzeichen — ein in die Pixel eingebettetes Signal, das KI-Inhalte maschinell kennzeichnet und sich über Chrome oder die Google-Suche prüfen lässt. Das Avatar-Feature, mit dem man sich selbst in Videos einsetzt, verlangt ein zweiminütiges Training aus Gesichts-Capture und Stimmproben, ein Mindestalter von 18 Jahren und eine Identitätsprüfung: Der Kontoinhaber muss bei der Einrichtung physisch vor der Kamera stehen, damit man nicht ohne Weiteres fremde Personen klonen kann. Und das nach eigener Einschätzung riskanteste Feature — das Austauschen von Audio und Sprache in bestehenden Videos — hat Google zum Start bewusst deaktiviert, weil Stimmklon im bewegten Bild der zentrale Deepfake-Vektor ist.
Für Unternehmen ist die Botschaft unbequem. Wenn fotorealistisches Video mit synchron geklonter Stimme zu Centpreisen und in Echtzeit verfügbar wird, sind Stimme und Bewegtbild keine Identitätsnachweise mehr — eine Verschiebung, die unmittelbar auf CEO-Betrug, gefälschte Videocalls und Reputationsangriffe durchschlägt. Wir ordnen den Stand der KI-Video-Deepfakes 2026 und die konkreten Konsequenzen in unserer Reportage dieser Ausgabe ausführlich ein. (Hinweis: Berichte über eine Einstellung von OpenAIs Consumer-Sora-App ließen sich nicht abschließend aus einer Primärquelle bestätigen.)