Vom RSS-Feed zum fertigen Magazin — ein Blick in die Pipeline, die täglich hunderte KI-Nachrichtenquellen aggregiert, verifiziert und aufbereitet.
Ein Python-Script (ai_news_agent.py) durchsucht 22 Quellen nach KI-Nachrichten der letzten 24 Stunden. Dabei kommen zwei Strategien zum Einsatz:
Quellen mit grünem Indikator liefern strukturierte RSS-Feeds. Quellen mit gelbem Indikator werden per Web-Scraping erfasst — sie liefern oft kein Veröffentlichungsdatum, das dann im nächsten Schritt nachrecherchiert wird.
Jede Quelle wird mit einem zweistufigen Fetch-Mechanismus abgerufen:
Der Fallback über curl umgeht häufige Probleme mit Bot-Detection und Rate-Limiting. Jeder Artikel wird auf sein Veröffentlichungsdatum geprüft — nur Artikel der letzten 24 Stunden werden aufgenommen.
Manche Quellen — insbesondere Meta AI und Anthropic — liefern auf ihren Übersichtsseiten kein Veröffentlichungsdatum. Diese Artikel werden mit published: null markiert.
Für jeden dieser Artikel wird parallel ein KI-Agent gestartet, der per Web-Suche das tatsächliche Veröffentlichungsdatum recherchiert. Artikel, die älter als 24 Stunden sind, werden herausgefiltert.
Dieselbe Nachricht taucht oft in mehreren Quellen auf. Die Pipeline entfernt Duplikate auf zwei Ebenen:
Die verbleibenden Artikel werden nach Veröffentlichungsdatum sortiert. Typisch bleiben aus ~400 Rohartikeln (davon ~394 arXiv-Papers) rund 10–15 redaktionelle Artikel übrig.
Für die 8–10 wichtigsten Artikel startet eine tiefgehende Recherche-Phase. Parallel laufende Agents verifizieren und erweitern jeden Artikel:
Die Recherche nutzt Web-Suche und den Zugriff auf Originalquellen, um über die Meldung hinaus Kontext und Einordnung zu liefern.
Täglich werden 2 aktuelle YouTube-Tutorials zum Thema KI recherchiert und in die Rubrik „Aus der Werkstatt" aufgenommen.
Jede Ausgabe enthält eine ausführliche Reportage (800–1.500 Wörter) zu einem aktuellen KI-Thema — mit eigener Seite und Teaser in der Edition.
Die recherchierten Artikel, die Reportage und die YouTube-Empfehlungen werden zu einer Magazin-Ausgabe zusammengestellt — als selbstständige HTML-Datei mit eingebettetem CSS, ohne externe Abhängigkeiten.
Die fertige Edition wird als editions/YYYY-MM-DD.html gespeichert, die Reportage als editions/reportagen/YYYY-MM-DD.html, und alles zusammen mit der aktualisierten Homepage auf GitHub Pages publiziert. Abschließend wird published-topics.md aktualisiert.