Die Datenmauer

Stellen Sie sich eine Bibliothek vor, in der sämtliche Bücher der Menschheit stehen. Jetzt stellen Sie sich vor, jemand hat sie alle gelesen — und braucht trotzdem mehr Material zum Lernen. Genau das ist die Situation der KI-Industrie im Jahr 2026. Die großen Sprachmodelle von OpenAI, Google, Meta und Anthropic haben praktisch das gesamte frei verfügbare Internet als Trainingsmaterial verarbeitet. Epoch AI, ein Forschungsinstitut für KI-Prognosen, schätzte bereits 2024, dass qualitativ hochwertiger Text im Internet zwischen 2026 und 2032 erschöpft sein wird. Die Lösung, auf die sich die Branche geeinigt hat, klingt zunächst nach einem Taschenspielertrick: Die KI erzeugt ihre eigenen Trainingsdaten.

Synthetische Daten — also künstlich generierte Datensätze, die echte Daten nachbilden, ohne von echten Menschen, Sensoren oder Ereignissen zu stammen — sind zum strategischen Rohstoff der KI-Entwicklung geworden. Der Markt für synthetische Datengenerierung wächst mit über 33 Prozent jährlich und soll 2026 knapp drei Milliarden Dollar erreichen. Gartner prognostiziert, dass bis 2027 75 Prozent aller Unternehmen generative KI nutzen werden, um synthetische Kundendaten zu erzeugen — gegenüber weniger als fünf Prozent im Jahr 2023.

Wie synthetische Daten entstehen

Das Prinzip lässt sich mit einer Analogie erklären: Ein erfahrener Kochlehrer hat Tausende Rezepte studiert und kann nun neue Rezepte erfinden, die „echt“ schmecken, aber nie in einem Kochbuch standen. Er kennt die Muster — welche Gewürze zusammenpassen, welche Texturen harmonieren — und kombiniert sie zu neuen, plausiblen Kreationen.

Genau so funktionieren generative KI-Modelle bei der Erzeugung synthetischer Daten. Ein großes Sprachmodell wie GPT-4 oder Llama hat aus Milliarden von Textbeispielen gelernt, wie natürliche Sprache aufgebaut ist. Bittet man es, medizinische Fallberichte, Kundengespräche oder Finanzanalysen zu generieren, erzeugt es Texte, die statistisch von echten Daten kaum zu unterscheiden sind — aber keine realen Personen, Patienten oder Transaktionen enthalten.

Für Bilder und Videos geht NVIDIA mit seiner Cosmos-Plattform noch weiter: Sogenannte „World Foundation Models“ erzeugen physikalisch korrekte, fotorealistische Simulationen ganzer Welten. Autonome Fahrzeuge von Unternehmen wie Uber, Figure AI und Agility Robotics werden in synthetischen Umgebungen trainiert — mit Regen, Nachtszenen und Unfallsituationen, die in der realen Welt zu selten, zu gefährlich oder zu teuer zum Aufnehmen wären. NVIDIAs jüngstes Modell, Cosmos Predict 2.5, vereint drei separate Generierungsansätze in einer einzigen Architektur und erzeugt konsistente Multi-Kamera-Videosequenzen aus einem einzigen Eingabebild.

Synthetische Daten sind wie ein Flugsimulator für KI: Man kann Szenarien üben, die in der Realität zu selten, zu gefährlich oder zu teuer wären. Aber irgendwann muss der Pilot auch echte Starts und Landungen fliegen.

Die Milliarden-Wette der Tech-Konzerne

Die größten Technologieunternehmen der Welt setzen massiv auf synthetische Daten. NVIDIA übernahm im März 2025 das Startup Gretel für 320 Millionen Dollar — eine Firma, die auf datenschutzkonforme synthetische Datengenerierung für Unternehmen spezialisiert ist. Meta nutzt synthetische Reasoning-Daten in einem eigenen „Mid-Training“-Schritt zwischen Pre-Training und Reinforcement Learning, um die logischen Fähigkeiten seiner Llama-Modelle zu verbessern. Apple hat über fünf Milliarden synthetische Bild-Text-Paare generiert, um seine multimodalen Modelle zu trainieren — und baut für den geplanten „LLM Siri“-Relaunch eine dedizierte synthetische Daten-Pipeline.

Im Startup-Ökosystem hat sich eine spezialisierte Industrie gebildet. Das österreichische Unternehmen MOSTLY AI (Serie B, 25 Millionen Dollar) generiert synthetische Tabellendaten für Banken und Versicherungen. Synthesis AI wuchs zuletzt um über 400 Prozent jährlich. Und Plattformen wie K2view und YData ermöglichen es auch mittelständischen Unternehmen, synthetische Datensätze zu erzeugen, ohne eigene KI-Expertise aufbauen zu müssen. Die Kostenersparnis ist dabei enorm: Synthetische Daten können 500- bis 1.000-mal günstiger sein als manuell gelabelte echte Daten.

Model Collapse: Wenn die Schlange sich selbst frisst

Im Juli 2024 veröffentlichten die Forscher Ilia Shumailov und Zakhar Shumaylov ein Paper in Nature, das die KI-Branche aufrüttelte: „AI models collapse when trained on recursively generated data.“ Ihre Kernaussage: Wenn KI-Modelle auf den Ausgaben anderer KI-Modelle trainiert werden — oder schlimmer, auf ihren eigenen Ausgaben — degenerieren sie über Generationen hinweg irreversibel.

Der Mechanismus lässt sich mit dem Fotokopieren einer Fotokopie vergleichen. Jede Kopie verliert ein wenig Schärfe, ein wenig Detail. Nach zwanzig Iterationen ist das Ergebnis ein verwaschener Fleck, der mit dem Original kaum noch etwas zu tun hat. Bei KI-Modellen passiert etwas Ähnliches, aber subtiler: Zuerst verschwinden die „Ränder“ der Datenverteilung — seltene Ausdrücke, ungewöhnliche Formulierungen, Nischenthemen. Die Forscher nennen das „Early Model Collapse“. In späteren Generationen verschmelzen dann auch die verbleibenden Modi, bis das Modell nur noch eine einförmige Durchschnittsmasse produziert — „Late Model Collapse“.

Die praktische Relevanz ist enorm: Da ein wachsender Anteil der Inhalte im Internet von KI erzeugt wird, trainieren neue Modelle zwangsläufig auf KI-generierten Texten — selbst wenn die Entwickler das nicht beabsichtigen. Das Internet wird zur Echokammer seiner eigenen synthetischen Erzeugnisse.

Model Collapse funktioniert wie das Fotokopieren einer Fotokopie: Jede Generation verliert Details am Rand, bis nur noch ein verwaschener Durchschnitt übrig bleibt. Seltene Perspektiven verschwinden zuerst.

Die Gegenargumente — und warum sie nur halb beruhigen

Die Forschungslage ist allerdings nicht so eindeutig, wie die Nature-Schlagzeile suggeriert. Mehrere Teams haben gezeigt, dass Model Collapse vermeidbar ist — unter bestimmten Bedingungen. Eine Antwort auf Shumailov et al., veröffentlicht auf arXiv im Oktober 2024, argumentiert, dass synthetische Daten in der Praxis nicht rekursiv die Originaldaten ersetzen, sondern sich neben ihnen ansammeln. Solange genügend echte Daten im Trainingsmix verbleiben, bleibt das Modell stabil.

Die Invisible-Tech-Analysten formulieren es prägnant: „Die besten Modelle werden auch 2026 in menschlichen Daten verankert sein.“ Synthetische Daten seien ideal, um seltene Szenarien abzudecken, Robustheit zu testen und Datenlücken zu füllen — aber nicht als Ersatz für den menschlichen Kern. Der Wettbewerbsvorteil liege in der „smartesten Kombination aus kuratierten menschlichen Korpora, disziplinierter synthetischer Generierung und menschlicher Qualitätskontrolle“.

Das Problem: Nicht jedes Unternehmen arbeitet so sorgfältig. Gartner warnt, dass bis 2027 60 Prozent der Datenverantwortlichen bei der Verwaltung synthetischer Daten scheitern werden — mit direkten Folgen für KI-Governance, Modellgenauigkeit und Compliance.

Bias, Vertrauen und die Frage der Provenienz

Model Collapse ist nicht das einzige Risiko. Synthetische Daten können bestehende Verzerrungen verstärken statt sie zu korrigieren. Wenn die Originaldaten etwa bei der Hautkrebserkennung überwiegend helle Hauttypen enthalten, reproduziert der synthetische Datengenerator diese Schieflage — und verleiht ihr den Anschein statistischer Stärke. The Lancet Digital Health warnt vor „Synthetic Trust“: einem unbegründeten Vertrauen in Modelle, die auf künstlichen Datensätzen trainiert wurden, welche klinische Realitäten und demografische Vielfalt nicht abbilden.

Die Forscher der US National Academy of Sciences (PNAS) gehen noch weiter und identifizieren grundlegende ethische Herausforderungen: Wenn synthetische Daten in wissenschaftlichen Studien verwendet werden, ohne als solche gekennzeichnet zu sein, untergräbt das die Reproduzierbarkeit und das Vertrauen in Forschungsergebnisse. Robuste Provenienz-Systeme — also die lückenlose Dokumentation, wann und wie synthetische Daten in eine Pipeline eingeflossen sind — werden zum Hygienefaktor der KI-Entwicklung.

Regulierung: Der EU AI Act und synthetische Inhalte

Regulatorisch bewegt sich das Feld schnell. Ab August 2026 greifen die Transparenzpflichten des EU AI Act (Artikel 50): KI-generierte Inhalte müssen in maschinenlesbarem Format als synthetisch gekennzeichnet werden. Deepfakes und synthetische Medien, die der öffentlichen Information dienen, brauchen sichtbare Labels. Die Europäische Kommission hat im Dezember 2025 den ersten Entwurf eines „Code of Practice“ für die Kennzeichnung KI-generierter Inhalte veröffentlicht — mit technischen Standards für Wasserzeichen und Erkennungsmechanismen. Die finale Version wird für Juni 2026 erwartet.

Für Unternehmen, die synthetische Daten nutzen, bedeutet das: Die Nachverfolgbarkeit wird Pflicht. Wer nicht dokumentieren kann, welche Datensätze synthetisch sind, welches Modell sie erzeugt hat und auf welcher Grundlage, riskiert Compliance-Probleme — insbesondere in regulierten Branchen wie Gesundheitswesen, Finanzsektor und öffentlicher Verwaltung.

Was das für Entscheider bedeutet

Die Synthese aus Forschung, Marktentwicklung und Regulierung ergibt ein klares Bild: Synthetische Daten sind kein Hype, sondern ein unverzichtbares Werkzeug — aber eines, das mit Bedacht eingesetzt werden muss. Für CEOs, PMs und Tech Leads in SaaS- und Technologieunternehmen ergeben sich drei Handlungsfelder.

Erstens: Synthetische Daten als Ergänzung, nicht als Ersatz verstehen. Die Kostenvorteile sind real — 500- bis 1.000-fache Reduktion gegenüber manuellem Labeling. Aber der menschliche Datenkern bleibt die Qualitätsgarantie. Unternehmen, die komplett auf synthetische Daten umsteigen, riskieren Model Collapse und Bias-Verstärkung.

Zweitens: Provenienz und Governance von Tag eins einbauen. Wer synthetische Daten nutzt, braucht Tracking-Systeme, die dokumentieren, was synthetisch ist, was nicht, und wie der Mix zusammengesetzt wurde. Der EU AI Act macht das ab August 2026 zur Pflicht — aber kluge Teams führen es jetzt schon ein.

Drittens: Die richtigen Anwendungsfälle wählen. Synthetische Daten glänzen dort, wo echte Daten knapp, teuer oder datenschutzrechtlich problematisch sind: seltene Krankheitsbilder im Gesundheitswesen, Extremszenarien im autonomen Fahren, Privacy-konforme Testdaten in der Finanzbranche. Wo genügend echte Daten verfügbar sind, bringt der Umweg über synthetische Generierung oft mehr Risiko als Nutzen.

Die KI-Branche befindet sich in einem delikaten Gleichgewicht. Synthetische Daten ermöglichen Fortschritt, wo echte Daten nicht mehr ausreichen. Aber sie können auch die Grundlage untergraben, auf der dieser Fortschritt steht. Die Unternehmen, die dieses Gleichgewicht am besten managen — mit sauberer Provenienz, disziplinierter Mischung und regulatorischer Voraussicht — werden den KI-Wettlauf der nächsten Jahre dominieren.