Holger Temme

Holger Temme ist Area Director CEMEA Neo Technology.

Big DataData & Storage

Die Technologie hinter den Panama Papers

0 0 Keine Kommentare

Der Mega-Skandal der Panama Papers ist ohne Big-Data-Technologie undenkbar. 2,6 Terabyte umfassen die geleakten Dokumente der Kanzlei Mossack Fonseca. Ohne eine Graphdatenbank wären die vielschichtigen Strukturen von Steuerhinterziehung und Offshore-Geschäften vielleicht nie ans Licht gekommen.

Die Panama Papers sind das bislang größte Daten-Leak der Geschichte. Insgesamt umfassen sie 11,5 Millionen Dokumente – darunter E-Mails, Verträge, Abschriften, eingescannte Dokumente, Fotodateien, Auszüge aus einer internen Datenbank und diverse andere Schriftstücke. Ähnliche Fälle der Vergangenheit wie die “Wikileaks” (2010; 1,7 GByte), “Offshore Leaks” (2013; 260 GByte), “Lux-Leaks” (2014; 4 GByte) oder “Swiss Leaks” (2015; 3,3 GByte) erscheinen im Vergleich zu den 2,6 Terabyte fast zwergenhaft.

Ausgewertet wurden die Unmengen an Daten vom International Consortium for Investigative Journalists (ICIJ) in enger Zusammenarbeit mit der Süddeutschen Zeitung sowie 400 Journalisten und mehr als 100 Medienorganisationen in rund 80 Ländern. Doch wie ist es überhaupt möglich ein so großes Volumen an Daten zu analysieren und journalistisch aufzubereiten?

Den Überblick behalten

Die Technologie dahinter ist eine Kombination aus Graphtechnologie und entsprechender Visualisierungssoftware. Um die stark verknüpften Daten zu strukturieren und Journalisten mit unterschiedlichen technischen Vorkenntnissen und Sprachen einen einfachen Zugriff zu ermöglichen, setzte ICIJ auf die Graphdatenbank Neo4j und die Visualisierungsplattform Linkurious.

Graphdatenbanken wie Neo4j eignen sich besonders gut für das Management und Abfragen von stark vernetzten, komplexen Daten. Anders als herkömmliche, relationale Datenbanken visualisieren sie nicht nur einzelne Objekte, sondern auch die Verbindungen dazwischen sowie deren Eigenschaften anschaulich in einer Graphstruktur. Beziehungen und komplexe Zusammenhänge zwischen den Daten lassen sich schnell und einfach analysieren.

Graphdatenbanken eignen sich besonders gut für das Management und Abfragen von stark vernetzten, komplexen Daten, da sie nicht nur einzelne Objekte, sondern auch die Verbindungen dazwischen sowie deren Eigenschaften visualisieren (Bild: Shutterstock-DeiMosz).
Graphdatenbanken eignen sich besonders gut für das Management und Abfragen von stark vernetzten, komplexen Daten, da sie nicht nur einzelne Objekte, sondern auch die Verbindungen dazwischen sowie deren Eigenschaften visualisieren (Bild: Shutterstock-DeiMosz).

Mit einem Klick wird klar, in welchem Verhältnis bestimmte Akteure und Unternehmen zueinander stehen. Ein klarer Vorteil für die Journalisten, die auf einfachem Weg den Spuren des Geldes folgen konnten und so ständig neue Stories hinter den Daten entdeckten. Die Journalisten konnten als Benutzerschnittstelle über eine Web-App von Linkurious auf die Graphdatenbank zugreifen. Damit war die riesige Menge an Daten für die Analyse und Recherche erstmals greifbar – auch ohne technisches Wissen.

ICIJ & Swiss Leaks

Es ist nicht das erste Mal, dass sich das ICIJ mit einer so umfangreichen Recherchearbeit konfrontiert sah. Erst im vergangenen Jahr veröffentlichte die Vereinigung unabhängiger Journalisten die Swiss Leaks, die die betrügerischen Geschäfte von mehr als 100.000 Kunden der Schweizer HSBC Bank aufdeckte.

Als das Datenpaket damals bei ICIJ auf dem Tisch landete, war für alle Beteiligten schnell klar, dass für die Analyse der Dateien herkömmliche Analysetools nicht ausreichten. Eine intuitive Bedienung und anschauliche Visualisierung war ebenso nötig wie schnelle Suchabfragen und zuverlässige Ergebnisse. Die Verbindung von Linkurious und Neo4j erwies sich als ideale Lösung. Daher kam auch bei der Analyse der weitaus umfangreicheren Panama Papers kein anderes Tool zum Einsatz.

Big Data Technologien sind entscheidend

Bei aller Skandalträchtigkeit der Panama Papers sollte dabei eines nicht vergessen werden: Vor zehn Jahren hätte zwar ein solcher Daten-Leak passieren können, allerdings hätte wohl niemand darüber so ausführlich und vielseitig berichtet. Die genaue Analyse der Dateien und damit die tiefgreifende journalistische Recherche wurde erst durch die Entwicklung von Big-Data-Technologien möglich – darunter beispielsweise Googles Datenbank BigTable, Facebook oder Hadoop von Yahoo.

Aktenberge (Bild: Shutterstock / Bacho)
Aktenberge wurden früher durchforstet – heute sind es Terabyte an Daten. (Bild: Shutterstock/Bacho)

Daten sind die Rohstoffe des 21. Jahrhunderts. Das gilt nicht nur für die Geschäftsmodelle der Global Player, sondern immer mehr auch für Start-ups, kleine und mittelständische Unternehmen sowie große Organisation, staatliche Einrichtungen oder Institutionen.

Schon lange geht es nicht mehr nur darum, Daten zu sammeln und Wörter zu zählen, sondern Verbindungen und Beziehungen dazwischen herzustellen. Erst dann werden aus Daten Fakten, die zu neuen Erkenntnissen führen und einen echten Mehrwert für Unternehmen darstellen – sei es durch bessere Prognosen, ein effizienteres MDM, zusätzliche Marketing-Tools und Services, Betrugserkennung, Suchergebnisse in Echtzeit oder die Erschließung neuer Marktsegmente.

So vielversprechend der neue Blick hinter die Daten auch scheint, in der Praxis stellt eine nutzbringende und gleichzeitig kosteneffiziente Analyse von Big Data für viele Unternehmen nach wie vor eine Herausforderungen dar.

Die Recherche- und Analysearbeit von ICIJ rund um die Panama Papers ist daher ein schönes Beispiel wie mit der richtigen Technologie einfach und schnell Tools entwickelt und Datenmassen bewältigt werden können – mit wie sich zeigt – einschlagenden Ergebnissen.