Data Science: Hype oder notwendige Strategie?

Data & Storage
Big Data und Analytics (Bild: Shutterstock)

Dass Data Science derzeit beinahe überall auftaucht, ist vor allem Marketing-Strategen zu verdanken, die nach Big Data einen neuen Hype heraufbeschwören. Aber: Auch Daten-Analyse-Experten versprechen sich davon, künftig mehr Business-strategisches Wissen aus Daten generieren zu können. Was steckt also hinter Data Science? Und welche Praxisrelevanz hat es zu bieten?

Der Wunsch, aus Daten Wissen zu extrahieren, ist keineswegs erst in den letzten Jahren und schon gar nicht plötzlich aufgetaucht. Mit der Digitalisierung und dem immensen Wachstum der Datenmengen und Datenquellen entstehen aber natürlich ganz neue Möglichkeiten. Der Begriff Data Science tauchte allerdings bereits in den 1960er Jahren auf und wird seither in der Fachliteratur fast immer im Zusammenhang mit Mathematik und Statistik gebracht. Für Daten-Analyse-Experten verbergen sich hinter der „Datenwissenschaft“ statistische Auswertungsmodelle und -algorithmen – ungeachtet von Marketing-Vereinfachungen.

Dass Data Science gerade jetzt en vogue ist, hat aber dennoch gute Gründe. Zum einen steht Hardware zur Verfügung, die leistungsstark genug ist, ressourcenintensive statistische Berechnungen in akzeptabler Zeit durchzuführen. Zudem wird gerade im Forschungsbereich immer mehr auf Basis von Open-Source-Prinzipien gearbeitet – viele Modelle werden so von Wissenschaftlern auf der ganzen Welt weiterentwickelt. Zum anderen entstehen gerade echte Use Cases, die Stichworte Internet-of-Things (IoT), Machine Learning (ML) und Künstliche Intelligenz (KI) seien hier genannt. Wenn es gelingt, aus Daten und deren Korrelation vorausschauende Zusammenhänge zu errechnen, können sich ganze Geschäftsmodelle entscheidend ändern.

Die richtigen Fragen stellen

Soweit zumindest die Zukunftsvision. Die praktische Verwendung von Daten geht heute erste zaghafte Schritte in diese Richtung. Mit den wachsenden Datenmengen werden zunächst Management Reports verfeinert, später weitere Parameter hinzugefügt, das geschäftliche Blickfeld erweitert. Mehr und mehr unterstützen diese Analysen schließlich die proaktive Steuerung erst einzelner Prozesse und schließlich des gesamten Unternehmens. Business Intelligence (BI) nutzt Daten-Analysen gezielt, um unternehmerische Entscheidungen zu stützen. Je tiefer man eintaucht, umso komplizierter wird es: Die Korrelationen werden schnell so komplex, dass man den Überblick zu verlieren droht.

Mathias Golombek, der Autor dieses Gastbeitrags, ist CTO bei Exasol (Bild: Exasol).
Mathias Golombek, der Autor dieses Gastbeitrags, ist CTO bei Exasol (Bild: Exasol).

Hier setzt Data Science an, um BI weiter zu verfeinern. Doch die Methoden und Modelle, die Data Science zugrunde liegen, sind kompliziert und zumeist nur von Experten zu durchschauen. Die Ergebnisse der Berechnungen sind selten einfach zu interpretieren, das Risiko einer Fehleinschätzung zu unterliegen, entsprechend hoch. Kein Manager wird eine geschäftskritische Entscheidung auf der Basis eines Modells fällen wollen, welches er nicht versteht. Noch kritischer ist es, fremdentwickelte Modelle einfach zu kopieren und dem eigenen Business überzustülpen.

Für die Praxis bedeutet das zweierlei: Zum einen benötigen Unternehmen Spezialisten, die mit entsprechender statistischer Vorbildung Modelle entwickeln können. Doch auch diese benötigen zum anderen eine valide Aussage darüber, welches Wissen eigentlich genau aus den Daten gewonnen werden soll. Kurz gesagt: Unternehmen brauchen eine Datenstrategie. Sie benötigen zunächst Klarheit darüber, über welche Daten sie verfügen, wo diese sind und wer darauf Zugriff hat. In vielen Unternehmen sind zwar große Datenmengen vorhanden, diese sind jedoch in Datensilos der Fachabteilungen gekapselt – doppelte Datenhaltung, veraltete und ungenutzte Daten sind keine Seltenheit. Neben dieser Betrachtung des Ist-Zustandes sind strategische Überlegungen notwendig, welches Wissen künftig gebraucht wird, um Unternehmensziele zu erreichen oder bestimmte Entwicklungen anzustoßen. Denn Data Science kann nur Antworten geben, wenn die richtigen Fragen formuliert werden – Fragen nach Zusammenhängen und daraus resultierenden Entwicklungen, die die Geschicke eines Unternehmens entscheidend beeinflussen. Welche Erkenntnisse sollen und können aus den riesigen Mengen an Daten gezogen werden?

Algorithmen nicht nur entwickeln, sondern integrieren

Die Entwicklung statistischer Daten-Analyse-Modelle und die Anwendung im Geschäftsalltag sind zwei recht unterschiedliche Welten. Über die Definition eines Data Science Life Cycle lassen sie sich jedoch miteinander verweben: Am Beginn steht die Bestimmung und Abgrenzung der Fragestellung. Darauf basierend werden Datenquellen evaluiert und genau die Daten gefiltert, die benötigt werden. Anschließend kann das Analyse-Modell entwickelt und mit Trainingsdaten angelernt werden. Dann findet das Deployment in der Datenbank statt, gefolgt von Life-Tests und Anpassungen. Dieser Kreislauf wird typischerweise mehrmals durchlaufen und das Modell kommt so der Problemlösung dynamisch näher.

Big Data und Analytics (Bild: Shutterstock)

Angenommen, dank guter Unterstützung durch das Management sind geschäftsrelevante Fragen definiert und die Herkunft der Daten ist gesichert. Darauf basierend kommt nun der Modell-Entwicklung eine besondere Bedeutung zu. Data Scientists sind hochspezialisierte Mathematiker und Entwickler, die entsprechend geeignete Programmiersprachen und Libraries nutzen, wie beispielweise R, Python, Julia oder TensorFlow. Häufig wird ein Hadoop- oder Spark-System eingerichtet, auf dem die Experten programmieren, iterativ anpassen und mit Trainingsdaten das Modell testen. Letzteres lässt sich, je nach Anwendungsfall, schon zu ML und, je nach Definition, zur Entwicklung einer KI zählen. High-End-Infrastruktur ist bis zu diesem Punkt gar nicht notwendig.

Ein kritischer Punkt in der Praxis ist der Übergang zwischen der Modell-Entwicklung und der produktiven Umsetzung. Wie können die Modelle auf breiter Flur ausgerollt werden? Wie wird die notwendige Performance der Analysen im Geschäftsalltag sichergestellt? Kurz gefragt: Wie lässt sich Data Science mit BI sinnvoll verbinden? An dieser Stelle des Data Science Life Cycles, dem Deployment, kommt es auf die Infrastruktur an: Der Aufbau der Infrastruktur und die Integration der Daten-Analyse-Prozesse sollten eigentlich den geringsten Teil innerhalb des geschäftskritischen Gesamt-Projektes ausmachen. In der Praxis jedoch fressen sie unnötig Zeit und blockieren durch Inkompatibilitäten die Entwicklung.

Anstatt Insellösungen aufzubauen, ist es deshalb empfehlenswert, auf ein operatives Data Warehouse zurückzugreifen, in dem Standard-Prozesse und -Zugriffe bereits unternehmensweit umgesetzt sind. Damit wird die Operationalisierung von Data Science vereinfacht, und einmal akzeptierte Modelle einem breiteren Anwenderkreis zur Verfügung gestellt. Die Datenbank, auf der die Analysen ausgeführt werden, sollte deshalb flexible Möglichkeiten bieten, mit verschiedenen Programmiersprachen entwickelte Modelle zu integrieren und diese performant auszuführen. Ein Beispiel: Die Datenbank von Exasol wurde von Beginn an für analytische Zwecke entwickelt. Über speziell dafür verfügbare Funktionen (User Defined Functions) lassen sich Anwendungen in beinahe jeder Programmiersprache einfach hochladen oder direkt in der Datenbank programmieren. Sie arbeitet zudem In-Memory-basiert und nutzt paralleles Processing, was auch bei Analysen über große und sehr große Datenmengen extreme Performance sicherstellt. Das ist deshalb besonders erwähnenswert, weil diese Funktionen keineswegs üblich sind und die Integration damit nicht selten unverhältnismäßig aufwendig wird oder sogar das ganze Projekt zum Scheitern bringt.

Zurück zur Eingangsfrage: ja und ja

Es stimmt schon, der Hype um Data Science wird durch Marketing-Strategen und Buzzword-Kreateuren befeuert. Vielleicht so sehr, dass das, was wirklich dahintersteckt, verwässert oder sogar in falsche Zusammenhänge gebracht wird. Data Science beschäftigt sich eben nicht damit, einem Management-Report eine weitere Datenquelle hinzuzufügen oder diesen etwas granularer zu gestalten. Data Science ist auch keine automatische Magie, die alle Daten-Probleme in einem Unternehmen einfach lösen kann. Data Science ist vielmehr eine mathematische Wissenschaft, die sich mit linearen Regressionen, neuronalen Netzen, Deep Learning und anderen statistischen und analytischen Methoden beschäftigt und somit zusätzliche Werkzeuge zum traditionellen BI zur Verfügung stellen kann.

Gleichzeitig ist Data Science ein spannendes Thema für Unternehmen, mit dem sich diese in naher Zukunft wenigstens ansatzweise beschäftigen sollten. Denn mit der Digitalisierung – um ein weiteres Buzzword zu gebrauchen – wachsen sowohl die Datenmengen, als auch die Bedeutung ihrer Korrelationen. Digitale Geschäftsmodelle funktionieren nicht mit klassischem, analogen Augenmaß – zu schnell und zu komplex sind die Entwicklungen auf weltweiten, datengetriebenen Märkten. Data Science Methoden sind hier ein interessanter Aspekt, Entscheidungen noch smarter treffen zu können.

  • Daten
Autor
Erfahren Sie mehr 
Mathias Golombek ist CTO bei Exasol
Erfahren Sie mehr