Categories: Data

Gartner: Data Lakes sind nichts für lahme Enten

Die meisten Unternehmen werten derzeit ihre Daten nach Gesichtspunkten aus, die von einem bestimmten Usecase vorgegeben werden. Das zumindest berichtet die Gartner-Analystin Roxane Edjlali, bei Gartner für das Thema Daten Management verantwortlich, aus Gesprächen mit Kunden. Doch der Markt ändert sich schnell und Unternehmen müssen sich so aufstellen, dass sie auch Anforderungen meistern können, die erst in ein bis zwei Jahren bekannt sind. Fakt sei, es gebe Daten-Silos in Unternehmen, und die lassen sich auch so ohne weiteres nicht wegdiskutieren, so die Analystin diese Woche auf dem Gartner Business Intelligence and Analytics Summit in München.

Es gibt im Bereich Data Warehousing derzeit einige Konzepte, die Unternehmen eine möglichst flexible und agile Datenarchitektur ermöglichen sollen. Doch Data Lakes, DaaS (Data as a Service) und auch der Datenzugriff durch Microservices, lösen in den Augen der Gartner-Analystin Edjlali “nur einen Teil des Problems”.

Roxane Edjlali, Analystin bei Gartner, misst dem Thema Metadaten im Data Lake größte Bedeutung zu, wie sie auf dem Gartner Business Intelligence and Analytics Summit in München (10. und 11. Oktober 2016) erklärt. (Bild: Martin Schindler)

Im Data Lake müsse jeder Analyst “eine Ente” sein. Das bedeutet, dass die Analysten sich in dem großen Datenteich zurechtfinden müssen, um nicht darin unterzugehen. Wenn die Datenbasis aber zu schlecht ist, müsse der Analyst auch in der Lage sein, sich einen neuen See zu suchen, um eine Grundlage für seine Auswertungen zu bekommen, um im Bild zu bleiben. Und das treffe nicht auf jeden Analysten zu.

Das Konzept Data Lake weise also einige Probleme auf: So stünde der Anwender häufig vor dem Problem, strukturierte und unstrukturierte Daten selbst auseinanderhalten zu müssen. Auch Zugriffsrechte, Datenqualität und konsistente Werte sind in diesem großen Teich nur schwer realisierbar. “Auch wenn all diese Punkte behoben sind”, so die Gartner-Expertin, “ist es noch immer schwierig, eine semantische Konsistenz sicherzustellen.”

Gartners Modell der bimodalen IT ist in den Augen der Analysten auch im Bereich Data Warehouse eine Notwendigkeit. (Bild: Gartner)

In den Gartner-Beobachtungen habe sich gezeigt, dass bis 2018 mindestens 80 Prozent der Data-Lake-Installationen kein effektive Metadaten-Management haben werden. Dadurch schwindet der Wert dieser Datensammlungen für die Auswertung. Es gebe auch kaum die Möglichkeit, die Erfahrungen von Analysten und deren Entdeckungen für Nachfolgende Analysen festzuhalten.

Hier sei es daher wichtig, Daten, die in den Data Lake gespeichert werden, zu definieren und auch den Kontext, den Lebenszyklus und die Frequenz von Daten zu dokumentieren. Daran sollten auch Sicherheitsmechanismen geknüpft sein. Laut Edjlali müsse damit auch dokumentiert werden, wer die Daten oder Analysen erstellt, welche regulatorischen Vorgaben daran geknüpft sind oder welche Verschlüsselungen mit den Daten zusammenhängen. Ein weiteres Problem des Data Lakes sei, dass hier häufig die gleichen Daten aus unterschiedlichen Quellen gespeichert sind.

Nicht jeder Analyst könne sich im Data Lake zurecht finden. Daher biete sich das Konzept des bimodalen Data Warehouses an. (Bild: Gartner)

Weil aber Analysten für Auswertungen und Reports vertrauenswürdige Daten brauchen, scheint sich auch im Bereich Data Warehouse das Konzept der bimodalen IT aufzudrängen, das Gartner vorschlägt. Neben einer ‘traditionellen’ Infrastruktur/Datenhaltung sollten Unternehmen auch agile Anwendungen/Daten-Konzepte zulassen, um damit zu experimentieren.

Unternehmen brauchen neben agilen Anwendungen das, was Gartner “autoritative”, also im weitesten Sinne verlässliche Daten nennt. Hier kommen auch die klassischen Data-Warehouse-Lösungen ins Spiel. Um aber auch ‘experimentelle’ Auswertungen ermöglichen zu können, sollten diese Lösungen auch mit polystrukturierten Daten wie Bildern, Texten oder Social-Media-Daten erweitert werden können. Über eine BI-Lösung oder über eine Daten-Virtualisierung könne über diese gemischte Architektur eine verbindende, semantische Schicht gelegt werden.

Edjlali: “Die optimale Datenmanagement-Lösung sollte von sich aus ‘bimodal’ sein. Lösungsarchitekturen sollten auch das logische Data-Warehouse nutzen, das sowohl dynamische wie auch fixierte semantische Strukturen abdeckt und auch kontrollierte Verbindungen zwischen diesen beiden Bereichen zulässt.”

Erste Anwendererfahrungen

Einer, der dieses Konzept bereits in seinem Unternehmen praktiziert, ist Dieter Steinmann, Senior Manager Information and Communication Services bei Fraport. Die Betreibergesellschaft des Frankfurter Flughafens muss sich im internationalen Wettbewerb behaupten und “auch die Rolle des Flughafens verändert sich”, erklärt Steinmann. Der Flughafen sei eigentlich ein B2B-Betrieb ohne Kundenkontakt. Dennoch mache Fraport einen großen Teil des Umsatzes mit den Shops am Flughafen. “Aber gestresste Fluggäste kaufen nicht”, erklärt Steinmann weiter.

Daher simulieren er und sein Team alle zwei Minuten ein komplettes Modell des Flughafens samt den ankommenden und abfliegenden Passagieren. Wichtig sei ein Forecast, um lange Wartezeiten etwa beim Check-in oder der Sicherheitskontrolle zu vermeiden.

Dieter Steinmann, Senior Manager Information and Communication Services bei Fraport, lässt in einem Lab innerhalb von vier Wochen neue Anwendungen ausprobieren. (Bild: Martin Schindler)

Parallel dazu werden in einem Smart Data Lab neue Anwendungen ausprobiert. Mehrere Teams nutzen hier beliebig vorhandene (und auch produktive) Daten und versuchen neue Fragestellungen umzusetzen. Hier werden beispielsweise auch anonymisierte Kundendaten, die etwa über Web-Seiten, Shopping-Apps, Info-Punkte oder Bonussysteme gesammelt werden, ausgewertet.

“Im Lab werden die ersten Schritte definiert”, so Steinmann weiter, der sich das Motto “learn fast” zu eigen gemacht hat (statt: fail fast). Erst wenn sich ein Nutzen zeige, werde im nächsten Schritt in einer “Smart Data Factory” schrittweise der produktive Betrieb erprobt. “Das ist ein Bereich, der häufig unterschätzt wird.” Für den BI-Spezialisten aber ist das nicht nur eine technische Neuerung, sondern auch “eine kulturelle Veränderung” seines Unternehmens.

Webinar

Digitalisierung fängt mit Software Defined Networking an

In diesem Webinar am 18. Oktober werden Ihnen die unterschiedlichen Wege, ein Software Defined Network aufzubauen, aus strategischer Sicht erklärt sowie die Vorteile der einzelnen Wege aufgezeigt. Außerdem erfahren Sie, welche Aspekte es bei der Auswahl von Technologien und Partnern zu beachten gilt und wie sich auf Grundlage eines SDN eine Vielzahl von Initiativen zur Digitalisierung schnell umsetzen lässt.

Martin Schindler

Martin Schindler schreibt nicht nur über die SAPs und IBMs dieser Welt, sondern hat auch eine Schwäche für ungewöhnliche und unterhaltsame Themen aus der Welt der IT.

Recent Posts

Backup-Lücken in der Cloud

Für Backup und Recovery ihrer Daten sind SaaS-Anwenderunternehmen selbst verantwortlich. Verlassen sie sich nur auf…

7 Stunden ago

Wie gut ist Deutschland gegen Cyberangriffe gerüstet?

Potsdamer Konferenz für Nationale CyberSicherheit 2022 des Hasso-Plattner-Instituts.

8 Stunden ago

Prävention von Post-Quantum-Cyber-Attacken

BlackBerry unterstützt quantenresistente sichere Boot-Signaturen für die kryptoagilen S32G-Fahrzeugnetzwerkprozessoren von NXP Semiconductors.

8 Stunden ago

BSI veröffentlich Whitepaper zur Prüfbarkeit von KI-Systemen

Methode zur Erfassung der Prüfbarkeit der IT-Sicherheit von KI-Systemen.

13 Stunden ago

Blick in die Blackbox: Transparente Künstliche Intelligenz

Funktionsweisen von KI-Anwendungen für Autonomen Fahren oder in der Industrie 4.0 müssen transparent und nachvollziehbar…

16 Stunden ago

Silicon Security Day: Künstliche Intelligenz in der Cyber-Security

Cyberangreifer setzen zunehmend KI als Waffe ein, um ihre Angriffe noch zielführender zu starten –…

3 Tagen ago