Gartner: Data Lakes sind nichts für lahme Enten

Gartner predigt das Modell der bimodalen IT und das gilt gewisserweise auch für das Thema Enterprise Data Warehouse und den Data Lake. Doch Vorsicht, wer sich in diesen See begibt, sollte schwimmen können, warnt Analystin Roxane Edjlali.

Die meisten Unternehmen werten derzeit ihre Daten nach Gesichtspunkten aus, die von einem bestimmten Usecase vorgegeben werden. Das zumindest berichtet die Gartner-Analystin Roxane Edjlali, bei Gartner für das Thema Daten Management verantwortlich, aus Gesprächen mit Kunden. Doch der Markt ändert sich schnell und Unternehmen müssen sich so aufstellen, dass sie auch Anforderungen meistern können, die erst in ein bis zwei Jahren bekannt sind. Fakt sei, es gebe Daten-Silos in Unternehmen, und die lassen sich auch so ohne weiteres nicht wegdiskutieren, so die Analystin diese Woche auf dem Gartner Business Intelligence and Analytics Summit in München.

Es gibt im Bereich Data Warehousing derzeit einige Konzepte, die Unternehmen eine möglichst flexible und agile Datenarchitektur ermöglichen sollen. Doch Data Lakes, DaaS (Data as a Service) und auch der Datenzugriff durch Microservices, lösen in den Augen der Gartner-Analystin Edjlali “nur einen Teil des Problems”.

Roxane Edjlali, Analystin bei Gartner, misst dem Thema Metadaten im Data Lake größte Bedeutung zu. (Bild: Martin Schindler)
Roxane Edjlali, Analystin bei Gartner, misst dem Thema Metadaten im Data Lake größte Bedeutung zu, wie sie auf dem Gartner Business Intelligence and Analytics Summit in München (10. und 11. Oktober 2016) erklärt. (Bild: Martin Schindler)

Im Data Lake müsse jeder Analyst “eine Ente” sein. Das bedeutet, dass die Analysten sich in dem großen Datenteich zurechtfinden müssen, um nicht darin unterzugehen. Wenn die Datenbasis aber zu schlecht ist, müsse der Analyst auch in der Lage sein, sich einen neuen See zu suchen, um eine Grundlage für seine Auswertungen zu bekommen, um im Bild zu bleiben. Und das treffe nicht auf jeden Analysten zu.

Das Konzept Data Lake weise also einige Probleme auf: So stünde der Anwender häufig vor dem Problem, strukturierte und unstrukturierte Daten selbst auseinanderhalten zu müssen. Auch Zugriffsrechte, Datenqualität und konsistente Werte sind in diesem großen Teich nur schwer realisierbar. “Auch wenn all diese Punkte behoben sind”, so die Gartner-Expertin, “ist es noch immer schwierig, eine semantische Konsistenz sicherzustellen.”

Gartners Modell der bimodalen IT ist in den Augen der Analysten auch im Bereich Data Warehouse eine Notwendigkeit. (Bild: Gartner)
Gartners Modell der bimodalen IT ist in den Augen der Analysten auch im Bereich Data Warehouse eine Notwendigkeit. (Bild: Gartner)

In den Gartner-Beobachtungen habe sich gezeigt, dass bis 2018 mindestens 80 Prozent der Data-Lake-Installationen kein effektive Metadaten-Management haben werden. Dadurch schwindet der Wert dieser Datensammlungen für die Auswertung. Es gebe auch kaum die Möglichkeit, die Erfahrungen von Analysten und deren Entdeckungen für Nachfolgende Analysen festzuhalten.

gartner_bi_munich

Hier sei es daher wichtig, Daten, die in den Data Lake gespeichert werden, zu definieren und auch den Kontext, den Lebenszyklus und die Frequenz von Daten zu dokumentieren. Daran sollten auch Sicherheitsmechanismen geknüpft sein. Laut Edjlali müsse damit auch dokumentiert werden, wer die Daten oder Analysen erstellt, welche regulatorischen Vorgaben daran geknüpft sind oder welche Verschlüsselungen mit den Daten zusammenhängen. Ein weiteres Problem des Data Lakes sei, dass hier häufig die gleichen Daten aus unterschiedlichen Quellen gespeichert sind.

Nicht jeder Analyst könne sich im Data Lake zurecht finden. Daher biete sich das Konzept des bimodalen Data Warehouses an. (Bild: Gartner)
Nicht jeder Analyst könne sich im Data Lake zurecht finden. Daher biete sich das Konzept des bimodalen Data Warehouses an. (Bild: Gartner)

Weil aber Analysten für Auswertungen und Reports vertrauenswürdige Daten brauchen, scheint sich auch im Bereich Data Warehouse das Konzept der bimodalen IT aufzudrängen, das Gartner vorschlägt. Neben einer ‘traditionellen’ Infrastruktur/Datenhaltung sollten Unternehmen auch agile Anwendungen/Daten-Konzepte zulassen, um damit zu experimentieren.

Unternehmen brauchen neben agilen Anwendungen das, was Gartner “autoritative”, also im weitesten Sinne verlässliche Daten nennt. Hier kommen auch die klassischen Data-Warehouse-Lösungen ins Spiel. Um aber auch ‘experimentelle’ Auswertungen ermöglichen zu können, sollten diese Lösungen auch mit polystrukturierten Daten wie Bildern, Texten oder Social-Media-Daten erweitert werden können. Über eine BI-Lösung oder über eine Daten-Virtualisierung könne über diese gemischte Architektur eine verbindende, semantische Schicht gelegt werden.

Edjlali: “Die optimale Datenmanagement-Lösung sollte von sich aus ‘bimodal’ sein. Lösungsarchitekturen sollten auch das logische Data-Warehouse nutzen, das sowohl dynamische wie auch fixierte semantische Strukturen abdeckt und auch kontrollierte Verbindungen zwischen diesen beiden Bereichen zulässt.”

Erste Anwendererfahrungen

Einer, der dieses Konzept bereits in seinem Unternehmen praktiziert, ist Dieter Steinmann, Senior Manager Information and Communication Services bei Fraport. Die Betreibergesellschaft des Frankfurter Flughafens muss sich im internationalen Wettbewerb behaupten und “auch die Rolle des Flughafens verändert sich”, erklärt Steinmann. Der Flughafen sei eigentlich ein B2B-Betrieb ohne Kundenkontakt. Dennoch mache Fraport einen großen Teil des Umsatzes mit den Shops am Flughafen. “Aber gestresste Fluggäste kaufen nicht”, erklärt Steinmann weiter.

Daher simulieren er und sein Team alle zwei Minuten ein komplettes Modell des Flughafens samt den ankommenden und abfliegenden Passagieren. Wichtig sei ein Forecast, um lange Wartezeiten etwa beim Check-in oder der Sicherheitskontrolle zu vermeiden.

Dieter Steinmann, Senior Manager Information and Communication Services bei Fraport, lässt in einem Lab innerhalb von vier Wochen neue Anwendungen ausprobieren. (Bild: Martin Schindler)
Dieter Steinmann, Senior Manager Information and Communication Services bei Fraport, lässt in einem Lab innerhalb von vier Wochen neue Anwendungen ausprobieren. (Bild: Martin Schindler)

Parallel dazu werden in einem Smart Data Lab neue Anwendungen ausprobiert. Mehrere Teams nutzen hier beliebig vorhandene (und auch produktive) Daten und versuchen neue Fragestellungen umzusetzen. Hier werden beispielsweise auch anonymisierte Kundendaten, die etwa über Web-Seiten, Shopping-Apps, Info-Punkte oder Bonussysteme gesammelt werden, ausgewertet.

“Im Lab werden die ersten Schritte definiert”, so Steinmann weiter, der sich das Motto “learn fast” zu eigen gemacht hat (statt: fail fast). Erst wenn sich ein Nutzen zeige, werde im nächsten Schritt in einer “Smart Data Factory” schrittweise der produktive Betrieb erprobt. “Das ist ein Bereich, der häufig unterschätzt wird.” Für den BI-Spezialisten aber ist das nicht nur eine technische Neuerung, sondern auch “eine kulturelle Veränderung” seines Unternehmens.

Webinar

Digitalisierung fängt mit Software Defined Networking an

In diesem Webinar am 18. Oktober werden Ihnen die unterschiedlichen Wege, ein Software Defined Network aufzubauen, aus strategischer Sicht erklärt sowie die Vorteile der einzelnen Wege aufgezeigt. Außerdem erfahren Sie, welche Aspekte es bei der Auswahl von Technologien und Partnern zu beachten gilt und wie sich auf Grundlage eines SDN eine Vielzahl von Initiativen zur Digitalisierung schnell umsetzen lässt.