Wissenschafts-Journalismus heute

Unheimliches Vertrauen in Daten

Simon Rogers, früher Guardian, heute Twitter
Von Andreas von Bubnoff und Bernhard Albrecht

Simon Rogers hasste in der Kindheit Mathematik. Umso überraschender scheint es, dass ausgerechnet er heute mit Statistiken und Daten arbeitet.  Als er im Herbst 2001 einer Stelle in der Nachrichtenredaktion des Guardian antrat, war er eines der jüngsten Redaktionsmitglieder – und für etwas zuständig, was zu der Zeit niemand sonst machen wollte: In Kooperation mit der Grafikabteilung nachrichtenbezogene Grafiken zu erstellen.

Aus dem damals vernachlässigten Bereich wurde im Lauf der kommenden Jahre später der möglicherweise erfolgreichste Datenblog (siehe unten) der Welt. Den Daten, sagt Rogers, vertrauten viele Leser mehr als den Stories. Das habe den Erfolg vorangetrieben.

Dabei bezog er in den vergangenen Jahren auch Leser und Nutzer mit in die Aufarbeitung von Daten ein. In einem Fall lagen dem Guardian Rohdaten vor, wofür die Mitglieder des britischen Parlaments wie viel Geld ausgaben. Während der Telegraph die Dokumente mehrere Monate vorher hatte einsehen können, hatte der Guardian nur einen Tag für deren Auswertung Zeit.

Die Redakteure standen vor einer unüberschaubaren Menge an 250,000 Dokumenten. Die Lösung war Crowdsourcing: Der Guardian veröffentlichte die Unterlagen im Internet und forderte die Nutzer auf, sie nach Interessantem durchzukämmen. Mit Erfolg: Mehr als die Hälfte der Dokumente konnten bereits am ersten Tag ausgewertet werden; ein Leser wertete stolze 25,000 Seiten aus. Die Guardian-Journalisten machten später sogar ein Spiel aus der Auswertung, bei dem die User belohnt wurden (Rogers: "we gamified it").

Da viele der Daten, die der Guardian nutzt, von offenen Quellen stammten – auch open sources genannt -, müssten auch Journalisten viel transparenter darüber berichten, sagt Rogers: “Als Reporter saßen wir traditionell  im Elfenbeinturm und erzählten der Welt, was wir denken. Es war eine einseitige Beziehung zum Leser. Aber das funktioniert heute nicht mehr.“

Rogers verdeutlichte an historischen Beispielen, wie die graphische Verarbeitung von Daten Erkenntnisse befördern kann. So 1854 bei einem Choleraausbruch in London: Der Arzt und Epidemiologe John Snow kam auf die Idee, die Todesfälle auf einer Karte einzuzeichnen. Schnell wurde sichtbar, dass sich die Fälle rund um eine Wasserpumpstation häuften. Die Infektionsquelle war gefunden (siehe unten).

Am Beispiel einer kartenbasierten Analyse (siehe unten) der 2011 Riots in England zeigt Rogers, dass die meisten Verhafteten aus den ärmsten Teilen des Landes kamen. Beispielsweise waren die meisten jener, die in der Innenstadt von Manchester verhaftet worden waren, aus den armen Vierteln in den Vorstädten angereist.

Heute spiele Datenjournalismus in vielen Medien eine tragende Rolle, sagt Rogers - so verzeichne die Texas Tribune 60 Prozent ihrer Seitenaufrufe aufgrund von Data-Stories.

Warum aber ist Datenjournalismus nicht nur eine Spielerei, sondern wirklich relevant? Weltweit veröffentlichen Regierungen Tonnen an Daten”, sagt Rogers. “Traditionell arbeiten wir Journalisten nicht gerne damit, denn wir arbeiten mit Wörtern. Das erlaubt Regierungen, das Material in Massen herauszugeben und sich zugleich aus der Verantwortung zu stehlen. Unser Job ist es, das nicht zuzulassen.”.

Wichtig dabei: Um sich nicht von der Datenflut überwältigen zu lassen, sollte man zu Beginn eine konkrete Vorstellung davon haben, wonach man genau sucht. Außerdem hilft vor der Publikation, die Daten einem "sanity check" zu unterziehen – einer Prüfung auf ihre Stimmigkeit also.

Wichtig ist auch, die Daten in das richtige Format zu bringen. Eines der besten Werkzeuge dafür ist Excel. Rogers demonstrierte an einer einfachen Übung mit mehreren Personen, ihren Geschlechtern und ihren Gehältern, wie mittels einfacher Excel-Operationen aus den Rohdaten Aussagen gewonnen werden können. In seinem Beispiel stellte sich heraus, das ein Gehaltszuwachs bei einer Auswahl von Beschäftigten in zwei Folgejahren Frauen benachteiligte (siehe zum Beispiel „How to use VLOOKUP in Excel" [siehe unten]). Mittels der Funktion „Pivot-Table" (zu finden unter dem Menüpunkt „Daten") können Daten nach verschiedenen Kriterien gefiltert, ausgewertet, verdichtet und zusammengefasst werden.

Simon Rogers digitales Schatzkästchen

Cartodb
Ein Werkzeug, um Datensätze auf Stadtplänen und Landkarten zu visualisieren. Es ermöglicht auch, zeitliche Verläufe darzustellen, was Rogers am Beispiel von Twitterdaten zur in der Nacht zuvor erfolgten WM-Partie USA-Portugal demonstrierte, wobei erhöhte Twitteraktivität in den USA, Europa und Portugal erkennbar war. Sogar die Erwähnung von Schlüsselworten wie „Ronaldo" ließ sich leicht darstellen. Rogers: "This is a global conversation, [but] until you see that [on twitter] it's not a real thing. You can see where those peaks are---you'd expect that in Portugal there are a lot of tweets about Ronaldo, but then you also get them in bits of London." Ebenfalls unter Benutzung von Cartodb zeigte er, dass Tweets, die das Wort "sunrise" erwähnen, typischerweise aus Gegenden kommen, an denen gerade die Sonne aufgeht. Solche Auswertungen, sagte er, basieren auf den etwa 10 Prozent der Tweets mit so genannten Geotags, die den Aufenthaltsort des Absenders verraten.
Datawrapper
  • Kann etwa die Verteilungsdichte eines Themas anhand unterschiedlich intensiv eingefärbter Landkarten darstellen (sog. thematische Choroplethenkarte)
  • Kann aus Rohdaten auch Linien- und Balkendiagramme sowie Kuchengrafiken erstellen.
Fusion Tables
Fusion Tables ist eine Web-Applikation, mit der Datentabellen leicht bearbeitet, gemanagt, visualisiert und publiziert werden können. Auf Rogers Seite findet sich ein Link zu einer Gebrauchsanleitung [Link 1]

Rogers führte die Funktion anhand einer US-Statistik über Hinrichtungen vor, klassifiziert nach Bundesstaaten. Er speiste die Tabelle in Fusion Tables ein und fusionierte sie mit einer Tabelle mit den Umrissen der US Bundesstaaten [Link 2]

Für eine weitere Übung gaben die Masterclass-Teilnehmer Daten wie Alter, Wohnort und Trinkgewohnheiten über eine Datenmaske [Link 3] ein, die dann über Fusion Tables auf einer Weltkarte personenbezogen dargestellt wurden.

ColorBrewer

Tool, das bei der Farbgebung von Karten hilft, etwa dabei, eine Karte auch für Leser mit Rot-Grün-Blindheit lesbar zu machen.