Dirk Häußermann

ist Geschäftsführer EMEA Central bei Informatica.

Big DataData & Storage

Data Scientists und die Relevanz der Daten

Bei Data Science geht es nicht nur um die pure Wissenschaft der Wissenschaft willen. Silicon.de-Blogger Dirk Häußermann erklärt, worauf es tatsächlich ankommt.

In letzter Zeit wurden Data Science und Data Scientists viel diskutiert. Bei diesem Thema denkt man meist sofort an “Brainiacs” in weißen Kitteln, die über haufenweise Statistiken brüten. Aber es benötigt viel mehr als nur ein paar intelligente Leute, die in den dunklen Tiefen eines Unternehmenslabors schuften. Data Science schärft die Art und Weise, wie wir Geschäfte betreiben. Für Anfänger: Data Science motiviert, zu experimentieren – in Form von deduktivem oder hypothesenbasiertem Denken, um Geschäftsprobleme anzugehen. Da sich Probleme den Experimentator mehr oder weniger selbst offenbaren, kommt induktives oder Verhaltensmuster-basiertes Denken ins Spiel.

(Bild: Datenwachstum_shutterstock)

Aber fangen wir von vorne an: Wie können CIOs und ihre Teams Daten kreieren, die für den Geschäftserfolg relevant sind? Es gibt zwei Elemente, um dies zu erreichen. CIOs müssen relevante und vertrauenswürdige Daten schaffen. Relevant bedeutet in diesem Fall, dass die Daten auf dem richtigen Level und zur richtigen Zeit für Entscheider zusammengestellt werden. Und vertrauenswürdig bedeutet, dass die Daten bei der Entscheidungsfindung sicher sind. Beides ist wichtig.

Daten relevant machen

Der erste Schritt, um Daten relevant zu machen – insbesondere im Zeitalter von Big Data – besteht darin, sicher zu stellen, dass die richtigen Probleme durch die Daten und Analytics eines Unternehmens adressiert werden. Dies gilt, egal, ob die Daten für deskriptive, prädiktive oder bindende Analytics gedacht sind.

Umfrage

Welche Produkteigenschaften müssen 2-in-1-Geräte für den Einsatz in Ihrem Unternehmen erfüllen? Wählen Sie die drei wichtigsten aus.

Ergebnisse

Loading ... Loading ...

Dies bedeutet nicht, dass jede Information oder jede Datenbeziehung bereits im Voraus bekannt sein muss; vielmehr heißt es, dass es substantielle Geschäftsprobleme gibt, die – sofern sie gelöst werden – die Geschäftsergebnisse wesentlich verändern werden. Dies erfordert, dass “Geschäftsprobleme vs Anwendungen” die Daten bestimmen, die gesammelt werden. Zunehmend relevanter zu werden, umfasst zudem Mittel, die für neue Data Stakeholder interessant sind – dies kann beispielsweise auch das Einbringen von neuen Datenquellen wie etwa sogenannte IoT (Internet of Things)-Daten umfassen.

Viele der sogenannten Big Data-Probleme zielen darauf ab, personalisiert und relevant für den Kunden zu werden. Dafür sind Daten nötig, aber auch festgelegte Kundendaten. Diese Herausforderung zu meistern, ist entscheidend, um geschäftsbereichsübergreifende Beziehungen sichtbar zu machen. Und viel wichtiger: Es ist wichtig, um Mehrwert aus den sozialen Kundendaten zu ziehen.

Relevante Daten ermöglichen Analytics und verbessern die Produktivität von Data Modelers. Das klingt gut, aber Data Scientists verbringen tatsächlich die meiste Zeit damit, Daten vorzubereiten und dann Datenbeziehungen zu erschließen. Relevante Daten können direkt genutzt werden und bringen wichtige Statistiken mit; sie zeigen die entsprechenden Effekte, die nötig sind, um ein effektives prädiktives Modell zu bauen.

Daten vertrauenswürdig machen

Im nächsten Schritt müssen wir die relevanten Daten in vertrauenswürdige Daten umwandeln. Dabei gibt es zwei Möglichkeiten. Erstens müssen wir die Daten zeitgerecht konsistent machen. Hier kann man noch Einiges von Start-ups lernen, denn diese ziehen regelmäßig ihre Daten und stellen sie für ihre Kunden visuell dar. Eines ist sicher: Die heutigen Geschäftsprobleme wollen mithilfe von Daten gelöst werden und dies bedeutet, dass die Währung der Daten sich verändern muss.

Einige Kunden bevorzugen sogar ein tägliches Update zu ihren Daten. Einfach aus dem Grund, dass sie auf Geschäftsveränderungen reagieren können, sobald diese eintreten. Mit den konsistenten Daten müssen wir als nächstes deren Qualität angehen. Viele Daten sind nicht akkurat oder neue Datenquellen verfügen nicht über Metadaten oder die Quellen sind fehlerhaft. Dazu sind Daten mehr oder weniger „lebendig“ und werden mit der Zeit ohne System ungenau. Man kann fast sagen: Daten sind wie ein toter Fisch. Je älter sie werden, desto mehr riechen sie. Will man vertrauenswürdige Daten, muss man beides beachten.

Mehr als nur eine Wissenschaft

Bei Data Science geht es also nicht nur um die pure Wissenschaft der Wissenschaft willen. Vielmehr geht es darum, Benutzerfreundlichkeit, Zugänglichkeit und Unternehmens-Storytelling über die Daten, die nun durch Unternehmen fließen, drastisch zu verbessern. Es gibt bereits einige erwiesene, dauerhafte Verbesserungen, wenn Data Science eingesetzt wird, um Geschäftsprobleme zu lösen.