Aktive Datennutzung als Treiber für Innovation – Warum die flexible Verwaltung von Daten entscheidend für Unternehmen ist

Cloud
Datenstrom (Bild: Shutterstock)

Daten sind entscheidende Innovationstreiber. Gerade für Maschinelles Lernen und Anwendungen im Bereich Künstliche Intelligenz bilden sie das entscheidende Fundament. Doch um als ein solcher Innovationstreiber zu wirken, müssen zunächst die erforderlichen Rahmenbedingungen geschaffen werden. Denn ohne einen fein abgestimmten und sorgfältig koordinierten Datenstrom geraten Innovationsprozesse schnell ins Stocken.

Häufig werden Daten fälschlicherweise als statisch betrachtet. Dies veranschaulicht das Bild des Data Lakes: Datenströme münden in einem Daten-See, wo sie ungenutzt an der Oberfläche treiben, nur um nach und nach auf den Grund zu sinken, wo sie in Vergessenheit geraten. Behandeln Unternehmen ihre Data Lakes nur als reine Datenablage, verkommen diese irgendwann zu regelrechten Daten-Sümpfen (Data Swamps).

Natürlich finden sich Data Lakes auch überall dort, wo Daten lediglich gespeichert werden müssen. Hierzu gehören zum Beispiel Archiv- oder Backup-Dateien, welche die Geschäftskontinuität sichern und von denen Unternehmen deshalb mehrere Sicherheitskopien benötigen.

Zugleich wird es für Unternehmen immer wichtiger, dass ihre Daten sich flexibel verwalten lassen. In seinem Buch „The Book of Why: The New Science of Cause and Effect” sagt der mit dem Turing Award ausgezeichnete Informatiker und Philosoph Judea Pearl: „Sie sind intelligenter als Ihre Daten. Daten verstehen keine Ursachen und Wirkungen; Menschen dagegen schon.“* Es liegt also an uns Menschen – und an den Prozessen, die wir entwickeln – die Vielzahl an generierten Daten zugänglich und nutzbar zu machen.

Prinzipiell produziert jedes Unternehmen Daten. Diese sind jedoch von geringem Wert, wenn sie nicht verwendet werden. Eine aktuelle Studie, die von Seagate in Auftrag gegeben und von IDC durchgeführt wurde, zeigt, dass der Anteil an ungenutzten Daten in Unternehmen noch immer hoch ist. Gerade einmal 32 Prozent der Daten, die Unternehmen zur Verfügung stehen, werden tatsächlich verwendet. Die restlichen 68 Prozent bleiben ungenutzt.

Daher sollten Unternehmen Data Lakes als einen Ort betrachten, an dem viele dynamische Flüsse aufeinandertreffen, um die Daten effizient nutzen zu können. Den größten Mehrwert erzielen Unternehmen, indem sie verschiedene Datenströme und Data Lakes miteinander vergleichen und verbinden. Denn nur so lassen sich Bezüge herstellen und umfassende, übergreifende Analysen durchführen.

Das lässt sich zum Beispiel anhand autonom fahrender Autos veranschaulichen: Auch wenn es möglich ist, Daten von nur einem Fahrzeug eines Unternehmens zu analysieren, bietet erst ein Vergleich dieser Informationen mit denen anderer Anbieter autonom fahrender Autos reichhaltigere Erkenntnisse. Um ein noch umfassenderes Bild zu erhalten, kann das Wissen in die Datenbank einer Smart City integriert werden, die wiederum ihre Daten aus unzähligen Sensoren innerhalb der Stadt bezieht. Dieses Gesamtbild kann beispielsweise genutzt werden, um bessere öffentliche Sicherheitsstandards und Verbesserungen für den Verkehrsfluss umzusetzen.

Nur durch einen kontinuierlichen Austausch von Informationen aus verschiedenen Datenströmen lassen sich diese zahlreichen Quellen miteinander vernetzen, um auch komplexe Probleme zu lösen.

Was den Datenfluss bremst

Allerdings stellen viele Unternehmen fest: Es kann durchaus schwierig sein, große Datenmengen flexibel zu verwalten. Ein wesentlicher Hinderungsgrund sind häufig zu hohe Kosten. Wollen Unternehmen ihre Daten zur Analyse aus der Public Cloud ziehen, berechnen ihnen die Cloud-Anbieter eine entsprechende Gebühr. Diese liegt meist zwischen fünf und 20 Cent pro Gigabyte, wenn Kunden ihre Daten von der Cloud auf einen lokalen Speicher transferieren möchten. So fallen etwa für einen Petabyte an Daten bereits zwischen 50.000 und 200.000 US-Dollar Gebühren an.

Zudem sind Lösungen für den Datentransport (zum Beispiel schnelle Glasfaserkabel oder Geräte für die Datenübertragung) begrenzt. Sie sind entweder nicht universell verfügbar, nicht groß genug, nicht ausreichend flexibel oder sie haben Kapazitätsprobleme. Es ist absehbar, dass der aktuelle Stand des Glasfaserausbaus nicht ausreichen wird, um den stetig steigenden Bedarf an schnellem Internet zu decken und die rasant wachsenden Datenmengen auch zukünftig schnell und zuverlässig zu transportieren. Shuttles können zwar in vielen Fällen schnell große Datenmengen transportieren, allerdings weisen die heutigen Shuttle-Boxen oftmals Einschränkungen bei den logischen Schnittstellen auf; und einigen fehlt die für den Transport erforderliche Widerstandsfähigkeit. Da viele Shuttlesysteme proprietär sind, sind ihre Anwendungsfälle zudem oftmals sehr begrenzt.

Doch diese Probleme sind durchaus lösbar. Das Überwinden dieser Barrieren ist in heutigen Multi-Cloud-Umgebungen zunehmend wichtiger, um zu verhindern, dass die eigenen Unternehmensdaten ungenutzt und isoliert bleiben. Ob vom Netzwerkrand in die Cloud, von der Public Cloud ins lokale Rechenzentrum oder von einer Cloud in die nächste – nur, wenn Daten bewegt, analysiert und damit aktiv genutzt werden, können Unternehmen einen Mehrwert daraus schöpfen.

Oftmals bieten gerade Cloud-Anwendungen mit künstlicher Intelligenz ein enormes Innovationspotenzial. Deshalb sollten sich spätestens jetzt viele Unternehmen bewusst machen: Wollen sie auch langfristig konkurrenzfähig bleiben, ist ein freier Datenstrom essenziell.

* „You are smarter than your data. Data do not understand causes and effects; humans do.”

Autor
Erfahren Sie mehr 
Rainer Kozlik ist Director Sales Central & Eastern Europe bei Seagate Technology
Erfahren Sie mehr