Die Inferenz
Systemarchitektur

So entsteht jede Ausgabe

Vom RSS-Feed zum fertigen Magazin — ein Blick in die Pipeline, die täglich hunderte KI-Nachrichtenquellen aggregiert, verifiziert und aufbereitet.

01 News-Aggregation Automatisiert

Ein Python-Script (ai_news_agent.py) durchsucht 22 Quellen nach KI-Nachrichten der letzten 24 Stunden. Dabei kommen zwei Strategien zum Einsatz:

Tier 1a — Internationale Nachrichtenquellen (RSS)
MIT Technology ReviewRSS
TechCrunch AIRSS
VentureBeat AIRSS
Ars TechnicaRSS
The VergeRSS
Wired AIRSS
AI NewsRSS
Reuters AIRSS
Tier 1b — Deutschsprachige Nachrichtenquellen (RSS)
heise onlineRSS
Golem.deRSS
t3nRSS
Spiegel NetzweltRSS
Netzpolitik.orgRSS
Tier 2 — Lab-Blogs & Ankündigungen
OpenAI BlogRSS
Google DeepMindRSS
Anthropic BlogWeb
Meta AI BlogWeb
NVIDIA BlogRSS
Hugging Face BlogRSS
Tier 3 & 4 — Research & Community
arXiv cs.AIRSS
Hacker News AIRSS

Quellen mit grünem Indikator liefern strukturierte RSS-Feeds. Quellen mit gelbem Indikator werden per Web-Scraping erfasst — sie liefern oft kein Veröffentlichungsdatum, das dann im nächsten Schritt nachrecherchiert wird.

# Ausführung python3 ai_news_agent.py --format json --output /tmp/news-raw.json
02 Fetch & Fallback Automatisiert

Jede Quelle wird mit einem zweistufigen Fetch-Mechanismus abgerufen:

HTTP Request Status 200? Ja: Parsen
HTTP Request Nein: curl Fallback Parsen

Der Fallback über curl umgeht häufige Probleme mit Bot-Detection und Rate-Limiting. Jeder Artikel wird auf sein Veröffentlichungsdatum geprüft — nur Artikel der letzten 24 Stunden werden aufgenommen.

03 Datumsverifizierung KI-gestützt

Manche Quellen — insbesondere Meta AI und Anthropic — liefern auf ihren Übersichtsseiten kein Veröffentlichungsdatum. Diese Artikel werden mit published: null markiert.

Für jeden dieser Artikel wird parallel ein KI-Agent gestartet, der per Web-Suche das tatsächliche Veröffentlichungsdatum recherchiert. Artikel, die älter als 24 Stunden sind, werden herausgefiltert.

Artikel ohne Datum Parallele Agents WebSearch Datum bestätigt?
  • Agents suchen nach Artikeltitel + Quelle + Datum
  • Ergebnis: verifiziertes Datum oder Ausschluss des Artikels
  • Verhindert, dass alte Artikel als neu erscheinen
04 Deduplizierung & Ranking Automatisiert

Dieselbe Nachricht taucht oft in mehreren Quellen auf. Die Pipeline entfernt Duplikate auf zwei Ebenen:

  • URL-Normalisierung — identische Links werden zusammengeführt
  • Titel-Matching — gleiche Headlines über Quellen hinweg
  • Themen-Tracking — eine Datei (published-topics.md) protokolliert alle publizierten Themen. Exakt dasselbe Ereignis wird nicht wiederholt, aber neue Entwicklungen zu einem bekannten Thema werden aufgenommen und auf die frühere Berichterstattung verlinkt

Die verbleibenden Artikel werden nach Veröffentlichungsdatum sortiert. Typisch bleiben aus ~400 Rohartikeln (davon ~394 arXiv-Papers) rund 10–15 redaktionelle Artikel übrig.

05 Recherche & Fact-Checking KI-gestützt

Für die 8–10 wichtigsten Artikel startet eine tiefgehende Recherche-Phase. Parallel laufende Agents verifizieren und erweitern jeden Artikel:

  • Kernaussagen werden aus mindestens 2 unabhängigen Quellen verifiziert
  • Hintergrundrecherche: Wer sind die Akteure? Was führte dazu? Was sind die Auswirkungen?
  • Jeder Artikel erhält einen ausführlichen Analyse-Abschnitt (3–5 Absätze)
  • Nicht bestätigte Informationen werden als solche markiert

Die Recherche nutzt Web-Suche und den Zugriff auf Originalquellen, um über die Meldung hinaus Kontext und Einordnung zu liefern.

06 YouTube-Tutorials kuratieren KI-gestützt

Täglich werden 2 aktuelle YouTube-Tutorials zum Thema KI recherchiert und in die Rubrik „Aus der Werkstatt" aufgenommen.

  • Nur technische Inhalte: Coding, Training, Fine-Tuning, Architektur, Agents
  • Kein Hype-Content, keine Bild-Generierung, kein Prompt-Engineering
  • Nur Creator mit relevanter Reichweite (ab ~10.000 Subscriber)
  • Nur Videos vom selben Tag
07 In-Depth-Reportage KI-gestützt

Jede Ausgabe enthält eine ausführliche Reportage (800–1.500 Wörter) zu einem aktuellen KI-Thema — mit eigener Seite und Teaser in der Edition.

  • Themen aus einer redaktionellen Wunschliste (reportage-themen.md)
  • Falls leer: Thema wird passend zur Nachrichtenlage gewählt
  • Gründliche Recherche aus mindestens 5–8 Quellen
  • Fokus auf aktuelle Entwicklungen (2025/2026), nicht historische Rückblicke
Wunschliste Deep Research Reportage schreiben Eigene Seite
08 Edition erstellen & publizieren KI-gestützt

Die recherchierten Artikel, die Reportage und die YouTube-Empfehlungen werden zu einer Magazin-Ausgabe zusammengestellt — als selbstständige HTML-Datei mit eingebettetem CSS, ohne externe Abhängigkeiten.

  • Professionelles Editorial-Design mit Inhaltsverzeichnis
  • Jeder Artikel: Headline, Teaser, Hintergrund-Analyse, Quellenangaben
  • Kategorisierung: Politik, Industrie, Technologie, Forschung, Community
  • Reportage-Teaser mit Link auf die eigene Reportage-Seite (editions/reportagen/)
  • „Aus der Werkstatt"-Sektion mit YouTube-Tutorial-Empfehlungen
  • Responsive — funktioniert auf Desktop und Mobilgeräten

Die fertige Edition wird als editions/YYYY-MM-DD.html gespeichert, die Reportage als editions/reportagen/YYYY-MM-DD.html, und alles zusammen mit der aktualisierten Homepage auf GitHub Pages publiziert. Abschließend wird published-topics.md aktualisiert.

Recherche-Daten HTML generieren GitHub Pages Live