20.05.2014

Was ist Roboterjournalismus? – Teil 1

Lars Sobiraj über aktuelle Anwendungsfelder des Roboterjournalismus.

Bender-PA_720px

Futurama: Benders Presseausweis im Jahr 2017.
Bildmanipulation: Lorenz Matzat

Hierzulande machen sich derzeit zwei Gründer auf, den in den USA entwickelten Roboterjournalismus auf den deutschen Markt zu übertragen. Einer von ihnen ist Cord Dreyer. Dreyer studierte evangelische Theologie in Göttingen und kam über den Evangelischen Rundfunkdienst zum Journalismus. Als langjähriger leitender Mitarbeiter der dpa-Gruppe und dapd versteht er sich als Dienstleister, der Unternehmen im B2B-Sektor Medien zuliefert. Nachrichtendienste arbeiten bekanntlich nach dem Gießkannenprinzip, sie berücksichtigen keine individuellen Kundenwünsche. Einige Monate nach der dapd-Insolvenz gründete er zusammen mit Technikern des Fraunhofer Instituts die Text-On GmbH, um sein Angebot flexibler zu gestalten. Sein Konkurrent Saim Alkan von der Stuttgarter Agentur aexea befasste sich in den letzten Jahren unter anderem mit der Website- und Suchmaschinenoptimierung. Datenjournalist Lorenz Matzat glaubt, der selbst entwickelte Algorithmus habe früher als SEO-Bot seinen Dienst verrichtet. Beide Unternehmer sind momentan auf der Suche nach Kooperationspartnern. Verkauft wird übrigens nicht die Programmierung, sondern lediglich die einzelnen Beiträge, die automatisch erzeugt werden. Das Geschäftsmodell nennt sich „Content As A Service“, kurz CAAS.

Video: BlinkenTV: Roboter Journalismus

Am Anfang war der Statistik-Affe

Die erste im Web verfügbare Softwarelösung für automated journalism war stats monkey, der Statistik-Affe. Dieser beschreibt den Verlauf und das Ergebnis von Baseballspielen in ein paar leicht verdaulichen Sätzen. Ein Professor der Northwestern University aus Chicago gab einer Gruppe bestehend aus Journalismus- und Informatikstudenten den Auftrag, eine Software zu kreieren, die einen Datensatz in einen verständlichen Text verwandeln sollte. Nachdem die ersten Berichte von Baseball-Spielen online waren, wurde daraus im Januar 2010 das Startup Narrative Science. Die Kunden sind neben der NFL, Microsoft, Associated Press, Yahoo!, der Credit Suisse auch das US-Wirtschaftsmagazin Forbes. Als Investor beteiligte sich letztes Jahr in unbekannter Höhe ein Tochterunternehmen der CIA. Geheimdienste haben naturgemäß ein großes Interesse daran, gigantische Datenpools wie beispielsweise E-Mails, Verbindungsdaten etc. zu durchwühlen. Matzat vermutet, der Algorithmus präsentiert zum Abschluss das Resultat der Untersuchung in einer für CIA-Mitarbeiter verständlichen Zusammenfassung.

Immer wieder fallen im Zusammenhang mit dem Roboterjournalismus zwei Begriffe: Hyper-Individualisierung und Hyper-Lokalisierung. Bei dem geringen Preisniveau lohnen sich auch lokale Berichte über Ratssitzungen, Straßensperren, Kursschwankungen einer exotischen Währung, eines Warentermingeschäfts oder einer ausgefallenen Aktie. Zudem sollen die Wünsche frenetischer Sportfans bei den geplanten deutschsprachigen Internet-Portalen befriedigt werden. Zu jeder Bewegung des Sportlers, Ballbesitz und jedem noch so winzigen Ereignis sind separate Berichte denkbar. Daneben bietet sich die Technik für automatisierte Produktbeschreibungen für Online-Shops, Beschreibungen von Hotels und Pensionen, Hochwasserlageberichte, lokale Wetterberichte oder Erdbebenmeldungen an. Sofern genügend Datenmaterial vorhanden und die Finanzierung gesichert ist, steht den computerisierten Berichten nichts im Weg. Die Stuttgarter Agentur aexea schafft derzeit nach eigenen Angaben einen Output von rund 3,6 Millionen Artikeln pro Tag. Würde man den Serverschrank aufrüsten, könnte man den täglichen Ausstoß weiter in die Höhe treiben. Stellt sich bei der Masse nur die Frage, wie viel Prozent der veröffentlichten Beiträge es wert sind, gelesen zu werden. Ein Großteil wird wahrscheinlich nur von den Crawlern der Suchmaschinenanbieter erfasst. Doch sofern dies den PageRank einer Webseite erhöht, wäre das ein positiver Nebeneffekt.

AX-Algorithmus

Grafik: Funktionsweise des AX-Algorithmus
Quelle: aexea GmbH

Wie funktionieren die Algorithmen?

Wer sich fragt, warum es in diesem Sektor so wenige Anbieter gibt, sollte sich den umfangreichen Programmcode näher anschauen. Die Erstellung solcher Programme ist nur etwas für Spezialisten. Die Transformation reiner Informationen bis zum fertigen Text verläuft bei allen Anbietern ganz ähnlich. Um beim Beispiel Sport zu bleiben, wird der Computer zunächst mit allen Details des Spielverlaufs gefüttert. Basis des Algorithmus ist das feststehende Regelwerk einer Sportart, das mit einem umfangreichen Archiv an Ergebnissen, Aktionen der einzelnen Spieler, Zitaten und weiteren Berichten angereichert wird. Im nächsten Schritt muss das Programm verstehen, worum es inhaltlich geht. So müssen Füllwörter von Fakten unterschieden werden. Der Inhalt der Nachricht wird dann auf Grundlage der Grammatik, Orthographie und diversen Phrasen einer Sprache niedergeschrieben. Wurde dem Computer eine weitere Sprache „beigebracht“, können die Ergebnisse auf Knopfdruck in jeder unterstützten Sprache und zudem in verschiedenen Formaten ausgeliefert werden. Mit Journalismus hat der Vorgang nichts im engeren Sinn gemeinsam. Roboterjournalismus ist nichts weiter als eine intelligente Softwarelösung, die den menschlichen Sprachbildungsprozess nachahmt. Das allerdings sehr schnell und in Masse. Die Firma Automated Insights veröffentlichte letztes Jahr durchschnittlich 9,5 Berichte pro Sekunde, das waren über 300 Millionen computergestützter Texte. Für 2014 wurde als Ziel die Summe von einer Milliarde Beiträge genannt. Trotz des gigantischen Outputs, an den nicht einmal die Summe aller US-amerikanischer Print-Magazine und Online-Portale herankommt, sind die Preise vergleichsweise niedrig. Die Stuttgarter Kommunikationsagentur aexea bietet ihre Dienstleistungen für rund einen Euro pro Artikel an. Da kommen nicht mal die unschlagbar billigen Text-Broker mit, die die Artikel nach vorheriger Redigierung von den menschlichen Freiberuflern anonymisiert an die Verlage vermitteln.

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht.