Holger Temme

Holger Temme ist Area Director CEMEA Neo Technology.

Big DataData & Storage

Die unerkannten Potenziale von Big Data nutzen

Licht ins Dunkel von Dark Data sollen Unternehmen mit Graphdatenbanken bekommen. Diese zeigen in Echtzeit Datenzusammenhänge auf, die mit anderen Lösungen verborgen bleiben, erklärt Holger Temme, Area Director CEMEA von Neo Technology.

Aktuell ist der Begriff “Big Data” branchenübergreifend in aller Munde. In den letzten Jahren haben Unternehmen kräftig in ihre IT-Infrastruktur investiert, um verschiedene Bestände von sich rasant verändernden Daten erfassen und abspeichern zu können. Die Hoffnung bestand darin, durch das umfassende Sammeln von Kundendaten Wettbewerbsvorteile zu erzielen. Aber es zeigt sich immer deutlicher: Daten anhäufen alleine reicht nicht aus. Tatsächlich sieht der aktuelle Hype Cycle Special Report von Gartner, dass Big Data die Phase der übertriebenen Erwartungen verlassen hat. Denn die Unternehmen erkennen zunehmend, dass die Daten nicht nur gesammelt und gespeichert, sondern auch effizient verwaltet und analysiert werden müssen, um neue Erkenntnisse mit strategischem Mehrwert daraus zu gewinnen. Jetzt stehen sie vor der Herausforderung, die Daten sinnvoll zu sortieren und deren Gehalt tatsächlich in Mehrwert in der Praxis umzusetzen.

Üblicherweise konzentrieren sich Unternehmen bei der Datenanalyse auf sogenannte transaktionale Daten – also die Informationen, die ein Kunde beim Kauf eines Produkts oder einer Dienstleistung angibt, etwa Name, Adresse oder Kreditkartennummer. Von diesen versprechen sich Unternehmen am meisten Nutzen. Jedoch wird häufig in der Erhebung dieser Daten eine große Anzahl zusätzlicher Kundeninformationen als Nebenprodukt gesammelt. Diese nicht-transaktionalen Daten werden im Allgemeinen als “Dark Data” oder Schattendaten bezeichnet. Gartner definiert diese als informationelle Werte, die Unternehmen während regulärer Geschäftsaktivitäten sammeln, verarbeiten und abspeichern, aber üblicherweise nicht gewinnbringend verwerten.

Was ist “Dark Data”?

“Dark Data” kann unterschiedliche Formen annehmen, beispielsweise Informationen darüber, auf welche Marketingmaßnahmen einzelne Personen reagiert haben, auf welcher Plattform sie einen Fragebogen beantwortet haben oder wie sich über das Unternehmen und dessen Produkte in Social-Media-Kanälen geäußert haben, aber auch das bisherige Einkaufsverhalten des Kunden, die Häufigkeit von Website-Visits oder die geographische Verteilung der Kunden.

Auf den ersten Blick mögen diese Daten unbedeutend und unnütz erscheinen. Aber mit dem richtigen Ansatz lassen sich Muster und andere Zusammenhänge aufzeigen, die ansonsten übersehen worden wären. Mit anderen Worten: Dark Data enthalten Informationen, die – wenn sie richtig interpretiert werden – einen großen Unterschied machen können.

Der Schlüssel zum Verständnis dieser verborgenen Werte liegt im Erkennen der Verbindungen zwischen Informationen, die scheinbar keinen Bezug zueinander haben. Die Art und Weise, wie diese Daten gespeichert werden, spielt dabei eine entscheidende Rolle. Herkömmliche relationale Datenbanken – und sogar viele der aktuellen Big-Data-Technologien – sind nicht dafür konzipiert, Verbindungen und Muster zwischen den Datensätzen anzugeben. Sie können vielleicht einige Beziehungen und Verknüpfungen sehr oberflächlich darstellen. Die Abfragen wären jedoch äußerst langsam und ließen die nötige Schärfe vermissen. Es besteht ein großer Unterschied darin, allein zu wissen, ob zwei Bewohner desselben Haushalts verheiratet, Geschwister oder einfache Mitbewohner sind, oder einen Schritt weiterzugehen und zu prognostizieren, wie diese Unterschiede deren Entscheidungen beeinflussen können.

In den letzten Jahren jedoch sind einige Technologien entstanden, mit denen sich geschäftlicher Mehrwert aus den Schattendaten ziehen lässt. Im Allgemeinen umfasst dieser Ansatz drei Schritte:

 

  1. Verborgene Muster erkennen – Dafür werden eine passende Speicher- und Analyseinfrastruktur sowie Datenexperten, die die richtigen Fragen stellen, benötigt. Schlüsseltechnologien hierfür sind Lösungen für die Massenanalyse, beispielsweise Hadoop, Splunk oder SAS.
  2. Hypothesen entwickeln – Ebenso in den Zuständigkeitsbereich der Offline-Analyse und der Data Science fällt das Formulieren von Hypothesen, die zahlreiche Methoden von A-B-Tests und Backtesting kombinieren.
  3. Neu gewonnenen Erkenntnisse in die Praxis umsetzen – Durch die neu entwickelten Algorithmen steigt die Komplexität der Abfrageregeln und die herkömmlichen Technologien können nicht mehr in Echtzeit Ergebnisse liefern. Daher werden neue Technologien wie die Graphdatenbank Neo4j benötigt, um die Algorithmen an der richtigen Stelle mit einer angemessen Aktualität auszuführen. Nur so können diese zum Unternehmenserfolg beitragen.

Der aktuelle Diskurs zielt in erster Linie auf die ersten beiden Schritte ab, die in den Bereich der Datenanalyse gehören. Aber nur mittels des dritten Schritts lassen sich die gewonnenen Erkenntnisse auch tatsächlich umsetzen – und das sollte nicht vernachlässigt werden. Je komplexer und raffinierter die Algorithmen durch die vorherige Datenanalyse werden, desto stärker sind die operationellen Systeme der Unternehmen gefordert. Ein Beispiel hierfür findet sich in den Empfehlungen im E-Commerce. Für die entscheidende Empfehlung, die tatsächlich zum Kauf führt, ist es unter Umständen notwendig, die Informationen der Produkte im Warenkorb in Echtzeit mit den Produkten, die in der Vergangenheit angeschaut oder gekauft wurden, zu kombinieren und schließlich mit den Käufen von anderen Personen in einer ähnlichen Situation zu vergleichen. An diesen Multi-Hop-Empfehlungsalgorithmen in Echtzeit scheitern normalerweise relationale Datenbanken – oder der Ressourcenaufwand wird unverhältnismäßig teuer.

In Unternehmen tritt daher zunehmend ein Phänomen namens „polyglotter Persistenz“ (polyglot persistence) auf. Neue Datenbanktechnologien wie Graphdatenbanken – die sich unter anderem hervorragend für das obige Empfehlungsproblem eignen – werden parallel zu bestehenden Systemen eingesetzt, um spezielle Aufgaben zu übernehmen.

Je besser komplexe Kausalitäten verstanden werden, desto mehr Erkenntnisse lassen sich daraus ziehen – daher ist der Bedarf nach neuen Technologien nur folgerichtig. Immer mehr Unternehmen erkennen den Wert von Graphdatenbanken als Engine für Echtzeit-Aufgaben und wollen aus ihrem gesamten Datenbestand – offen und verborgen – Nutzen generieren.

Durch die Informationen aus Dark Data kann man nicht nur Kunden besser kennen lernen, sondern auch Mitarbeiter. Beispielsweise litt Gate Gourmet, ein Catering-Dienstleister für Fluglinien, unter einer unüblich hohen Fluktuationsrate von über 50 Prozent bei seinen 1000 Mitarbeitern am O’Hare Airport in Chicago. Durch das Auswerten von Schattendaten, die bereits in den internen Systemen vorhanden waren, wie demographische Daten, Gehälter und Verkehrsangebote, konnte das Unternehmen seinen Verdacht bestätigen, dass die Fluktuationsrate im direkten Zusammenhang mit der Länge des Arbeitsweges und den Anreisemöglichkeiten zum Flughafen steht. Anhand dieses Wissens konnte der Einstellungsprozess geändert und die Fluktuationsrate um 27 Prozent gesenkt werden. Für diese Lösung musste das Unternehmen keine aufwändige Datenerhebung organisieren. Stattdessen offenbarte eine genauere Analyse existierender Daten Muster und Zusammenhänge im Verhalten der Mitarbeiter.

Das Beispiel von Gate Gourmet zeigt das Potenzial für Unternehmen, das in der Analyse von Dark Data steckt. Unternehmen werden zwar – und müssen sogar – weiterhin aktiv Daten erheben und sammeln. Dennoch sollten sie natürlich sämtliche vorhandene Informationen im Datenbestand möglichst wirksam einsetzen. Neben entsprechenden Technologien benötigen sie nur etwas mehr Kreativität, um mit neuen Fragen aus denselben Daten interessante und überraschende Antworten zu erhalten.

Fazit

Um Dark Data erfolgreich monetarisieren zu können, müssen Unternehmen mehr tun als die Daten nur zu erheben und zu sammeln. Sie müssen sie auf verborgene Muster analysieren, Hypothesen definieren und die neu gewonnenen Erkenntnisse in die Praxis umzusetzen. Dieser Ansatz benötigt mehrere unterschiedliche Technologien, die auf ihren jeweiligen Anwendungsfall spezialisiert sind. Dazu zählt die Kombination von groß angelegten Analyse-Technologien für Data Science und Number Crunching mit der Echtzeit-Ausführung von komplexen Algorithmen anhand einer Graphdatenbank. Auf diese Weise schöpfen Unternehmen die bestehenden Daten und Systeme optimal aus und ergänzen ihre bisherigen Aktivitäten mit transformativen Einsichten.