Big Data ist tot – es lebe “Just Data”

Datenstrom (Bild: Shutterstock)

Heute will kein Unternehmen mehr den Hype um Big Data verpassen. Diese Sichtweise versperrt aber oft den Blick für das Wesentliche. Warum Daten einfach nur Daten sind erklärt Alexander Thamm im Gastbeitrag für silicon.de.

Nicht nur die Innovationszyklen werden immer kürzer. Auch die damit verknüpften Hypes um bestimmte Begriffe lösen sich immer schneller ab. Das gilt insbesondere im Umfeld neuer Technologien und digitaler Geschäftsmodelle. Schon im Jahr 2015 entfernte das IT-Beratungs- und Marktforschungsinstitut Gartner den Begriff “Big Data” aus seinem vielbeachteten Hype-Cycle. Wie genau die Vorhersage zum Ende des Hypes um Big Data stimmte, zeigt ein Blick auf die Google-Trends (siehe unten).

Alexander Thamm, der Autor dieses Gastbeitrags für silicon.de, ist Gründer der  auf Predictive Analytics spezialisierten Data-Science-Beratung Alexander Thamm GmbH  aus München (Bild: Alexander Thamm GmbH)
Alexander Thamm, der Autor dieses Gastbeitrags für silicon.de, ist Gründer der auf Predictive Analytics spezialisierten Data-Science-Beratung Alexander Thamm GmbH aus München (Bild: Alexander Thamm GmbH)

Gerade in dem Moment, in dem das Schlagwort “Big Data” im Bewusstsein vieler Entscheider und in den Vorstandsetagen angekommen ist, muss heute eindeutig festgestellt werden: Big Data ist “tot”. Ebenso wie Gartner stellen wir von der Alexander Thamm GmbH fest, dass es bei Data-Science-Projekten im Wesentlichen um etwas Anderes geht: Für uns sind Big Data, Small Data, Little Data, Fast Data oder Smart Data einfach nur Daten, also “Just Data”. Die erfolgskritischen Faktoren für die Nutzung von Daten sind unabhängig von deren Menge, Struktur und Geschwindigkeit – es geht darum, aus Daten echten Mehrwert zu schaffen.

Erfolgreiche Data-Science-Projekte ganz ohne Big Data

Dass Data-Science-Projekte ganz ohne Big Data erfolgreich sein können, erfahren wir in unserer täglichen Praxis. Als ein Premium-Autohersteller mit der Aufgabe an uns trat, die Wiederkaufsquote im Leasingbereich zu steigern, standen wir vor der Herausforderung, den Zeitpunkt des Wiederkaufs vorherzusagen. Das Problem, vor dem die Autohändler bislang standen war, dass die Kundenansprache oft zum falschen Zeitpunkt erfolgte.

Suchbegriffe Machine Learning und Big Data (Screenshot: Alexander Thamm)
Machine Learning tritt an die Stelle von Big Data und hat das Potenzial das “Next Big Thing” zu werden. Das lässt sich auch anhand des Google-Trends direkt veranschaulichen.(Screenshot: Alexander Thamm)

Um die Genauigkeit bei der Prognose zu steigern, haben wir nicht einfach die Datenmenge erhöht. Bei der Analyse fiel uns vielmehr auf, dass die Datenbasis selbst für die Ungenauigkeit der Vorhersagen verantwortlich war. Unser Modell, das auf Diagnose- und Fahrzeugdaten basierte, führte nicht nur dazu, dass der Hersteller 25 Prozent der nicht plausiblen Eingaben korrigieren und diese Kunden zum richtigen Zeitpunkt ansprechen konnte, im gleichen Zuge konnten auch unzuverlässige Händler identifiziert und deren Prozesse anhand von Best-Practice-Methoden der Top-Händler nachhaltig verbessert werden.

Dieser Fall zeigt, dass die Prognosegüte nicht von der Menge der Daten abhängig ist. Just Data bedeutet, dass vor allem die richtigen Daten in die Analyse einbezogen werden müssen.

Just Data Mindset ermöglicht Fokus auf die relevanten Daten

In einem anderen Fall ging es bei einem Kunden aus dem Energiesektor darum, die Prognosegüte des bisherigen Vorhersagemodells zu verbessern. Energieproduzenten müssen sehr genau wissen, wie hoch die Stromlast ist, um die Stromeinspeisung so exakt wie möglich am Bedarf auszurichten. Sowohl zu geringe wie zu große Stromlieferungen ziehen Strafzahlungen für den Stromlieferanten nach sich. Darum gilt es, diese Strafen so gering wie möglich zu halten.

Unsere Lösung basierte auf einem Deep-Learning-Algorithmus zur Verbesserung des Prognosemodells. In das bisherige Modell floss an Wetterdaten nur die Temperatur ein. Wir erweiterten die Wetterdaten um zusätzliche Parameter wie Luftfeuchtigkeit, Luftdruck und Sonnenstrahlenintensität. Dadurch konnten wir erhebliche Verbesserungen bei der Prognose erreichen und einen hohen Automatisierungsgrad schaffen.

Hätten wir stattdessen die Datensätze zur Stromlast erweitert und im Minutentakt erfasste Daten der letzten 30 Jahre zu genaueren Prognosen genutzt, hätte das Modell sehr lange zum Berechnen benötigt und die Qualität der Prognose wäre nur geringfügig verbessert worden.

Die Genauigkeit eines Modells kann ab einem bestimmten Punkt durch die Erhöhung der Daten nur noch minimal gesteigert werden. (Grafik: Alexander Thamm)
Die Genauigkeit eines Modells kann ab einem bestimmten Punkt durch die Erhöhung der Daten nur noch minimal gesteigert werden. (Grafik: Alexander Thamm)

In der Grafik oben sieht man beispielhaft, wie die Genauigkeit eines Modells mit der Zunahme an Daten ab einem bestimmten Punkt nur noch minimal zunimmt. Um allerdings diese größeren Datenmengen zu verarbeiten, fallen unverhältnismäßig hohe Kosten für entsprechende Rechenkapazitäten an. In vielen Fällen lohnt es sich daher nicht, die Genauigkeit eines Modells durch Erweiterung der bisherigen Datensätze zu erhöhen.

Ursprung und die Sinnhaftigkeit des Begriffs “Big Data”

Der Begriff „Big Data“ kam in einer Zeit auf, in der es immer schwieriger wurde, die exponentiell wachsende Datenmenge mit der damals verfügbaren Hardware zu verarbeiten. Dabei umfasste das Phänomen Big Data von Beginn an mehr als die reine Datenmenge. Vielmehr wurde damit ein ganzes Ökosystem bezeichnet.

Darum bürgerte sich die Rede von den “Vs” von Big Data ein. Im Lauf der Zeit wurde das Konzept immer stärker verfeinert. Zunächst wurde das Big-Data-Ökosystem mit 3 Vs beschrieben: Volume, Variety und Velocity – also Datenvolumen, Datenvielfalt und Datengeschwindigkeit. Sehr bald wurde dieses Konzept immer wieder erweitert, so dass es bald 4 Vs, dann 5 Vs, dann 7 Vs und 9 Vs und schließlich 10 Vs waren.

Ausgewähltes Whitepaper

Studie zu Filesharing im Unternehmen: Kollaboration im sicheren und skalierbaren Umfeld

Im Rahmen der von techconsult im Auftrag von ownCloud und IBM durchgeführten Studie wurde das Filesharing in deutschen Unternehmen ab 500 Mitarbeitern im Kontext organisatorischer, technischer und sicherheitsrelevanter Aspekte untersucht, um gegenwärtige Zustände, Bedürfnisse und Optimierungspotentiale aufzuzeigen. Jetzt herunterladen!

An dieser Stelle muss die Frage gestellt werden, ob der Begriff “Big Data” tatsächlich noch sinnvoll ist, oder ob das Konzept nicht längst vollständig verwässert und unscharf geworden ist. Auch die Varianten Small Data, Little Data oder Smart Data stellen nur Rettungsversuche für ein Konzept dar, das heute eigentlich nicht mehr benötigt wird. Es ist an der Zeit, den Begriff “Big Data” und seine Varianten grundsätzlich zu überdenken und aufgrund der uneinheitlichen, unübersichtlich und unnötig gewordenen Definitionen über Bord zu werfen. Daher stellt sich die entscheidende Frage, was eigentlich der wesentliche Kern von Big Data ist beziehungsweise war und was davon wirklich relevant ist.

Was macht eigentlich Big Data im Kern aus?

Wie bereits erwähnt ging es bei Big Data nie wirklich um die größtmögliche Datenmenge. Vielmehr ging es darum, die für den jeweiligen Anwendungsfall relevanten Daten auszuwählen, zu bereinigen und mit entsprechenden Methoden auszuwerten. Zwar kommt es regelmäßig vor, dass die Datenmengen groß sind. Das ist jedoch nicht automatisch das entscheidende Merkmal von erfolgreichen Data-Science-Projekten.

In vielen Fällen verfügen Unternehmen vor allem deswegen über so große Datenmengen, weil sie um jeden Preis Daten sammeln. Ihre Hoffnung dabei ist, sich ähnlich wie die Top-Player Google, Amazon, Facebook oder auch die NSA aus scheinbar unzusammenhängenden Datenmassen strategische Vorteile zu verschaffen. Das Resultat sind gigantische Data Lakes, in denen die Unternehmen alle möglichen strukturierten und unstrukturierten Daten sammeln.

Die Konzentration auf die Datenmenge verstellt jedoch vielfach den Blick auf den einfachen Wesenskern von Big-Data-Projekten: Den analytischen Umgang mit Daten – und zwar “Just Data”. Wer sich dieser, auf ihr Wesentliches reduzierten Aufgabe widmet, wird sehr schnell merken, dass die erfolgskritischen Faktoren für solche Projekte nicht ausschließlich technologischer Natur sind. Um Daten in wertvolle Informationen zu verwandeln, benötigten Unternehmen auch ein entsprechendes “Mindset”, das die gesamte Unternehmenskultur betrifft.

Einfach nur Daten: Unabhängig von Menge, Struktur und Geschwindigkeit

Unabhängig von ihrer Menge, ihrer Struktur und ihrer Geschwindigkeit sind also alle Daten einfach “nur” Daten oder “Just Data”. Viel wichtiger als die Eigenarten der Daten selbst ist es, den Business-Case richtig zu definieren, Analyseprojekte in das Umfeld einer Organisation einzubetten und die passende analytische Methode auszuwählen.

Daher haben wir für die Durchführung von Data Science Projekten den Datenkompass entwickelt Ob Daten-Projekte zum Erfolg werden, hängt vielfach von Faktoren ab, die nicht technischer Natur sind. Unternehmen müssen über eine bestimmte Lernkultur verfügen, um mittels der offenen und inklusiven (Lern-)Prozesse bestimmte Zusammenhänge besser zu verstehen.

Und so paradox es klingt: Big Data ist zwar tot, aber genau das stellt eine große Chance für Data-Science-Projekte dar. Wenn wir weg von der Konzentration auf das Schlagwort “Big Data” kommen, dringen wir zu der wirklich entscheidenden Frage vor. Sie lautet: Wie können Unternehmen und Organisationen aus Daten Mehrwerte schaffen?