Auswerten, nicht verschieben: BI mit Daten aus allen Quellen

Früher war alles einfacher. Da lagen die Daten gut aufgeräumt und strukturiert in Data Warehouses und kluge Hirne hatten sich vorher überlegt, welche Fragen sie beantworten sollen. Heute kommen Daten aus den unterschiedlichsten Quellen, an die bisher niemand gedacht hatte. Fast jedes Gerät; vom Sensor über die Kamera, vom Türeingang über die Kasse ist vernetzt. Gartner meint darüber hinaus, dass bis 2019 rund 75 Prozent der Analytics Lösungen 10 oder mehr externe Datenquellen – sei es von Partnern oder Drittanbietern – umfassen werden. Ein Großteil davon wird unstrukturiert sein. Und keiner überlegt sich lange vorher, welche Fragen morgen aus diesen Daten beantwortet werden sollen.

IoT und Digitalisierung bescheren dem Konzept des Data Lakes eine neue Bedeutung. (Bild: M. Schindler)

All das stellt eine BI-Lösung vor Herausforderungen, die in der Frühzeit von Data Analytics einfach noch kein Thema waren. Eine gute Analyse lebt nun einmal von der guten Datenbasis. Wie greift man auf diese unterschiedlichen Daten zu, wie findet man die Datenquellen überhaupt? Welcher Ansatz passt – Data Lake oder ein Auswertungs-Layer?

Für und Wider eines Data Lake

In einigen Unternehmen wird diese Aufgabe den Data Scientists zugewiesen. Nur: diese Fachleute sind rar und teuer. Ein Versuch, aus diesem Dilemma zu entkommen ist die Demokratisierung von Daten – also die Möglichkeit, einen Teil der Data Analytics-Aufgaben an Power User und normale Anwender zu übertragen. Dashboards zu erstellen ist beispielsweise kein Hexenwerk, das kann ein Poweruser ganz einfach übernehmen. Und die Anwender haben maximale Freiheit durch intuitive Nutzerführung.

Diese Art von Self-Service BI setzt allerdings voraus, dass Daten nicht in Silos eingesperrt bleiben, sondern intuitiv und fast automatisch für Analysen zugänglich gemacht werden. Eine Möglichkeit, das zu lösen wäre ein Data Lake mit allen Daten in ihren ursprünglichen Formaten. Doch auch das bedeutet Aufwand – nicht alle Datenformate eignen sich gleich für Data Analytics und wer will sich schon dauernd mit Datenintegration und Formatierung plagen? Konsequenterweise existiert oftmals beides – ein Date Lake neben dem alten Data Warehouse, denn aus wirtschaftlichen Gesichtspunkten macht es wenig Sinn, die über Jahre aufgebaute und gepflegte Infrastruktur zu „entvölkern“, um etwa die Daten in eine Cloud zu migrieren. Oder Daten in eine Analyse-Datenbank einzuspeisen, um von dort aus die Auswertungen zu fahren.

Wie aber müsste ein Repository aussehen, in dem Daten extrem schnell verfügbar sind? Oft stellt sich heraus, dass aus dem Data Lake ein Sumpf geworden ist, der bei weitem nicht die erhoffte schnelle und einfache Auswertung garantiert. In der Praxis hat sich mehr und mehr herausgestellt, dass ein Data Lake nur dann funktioniert, wenn klar definiert ist, welchen Zwecken er dient und wenn das systematische Management der Daten gewährleistet ist. Ein Hadoop Cluster eignet sich perfekt für die Ablage und Verwaltung der Daten eines Data Lakes. Rohdaten abzulegen bringt aber auch ein Risiko für Datenqualität und Governance mit sich – sie können spontan im laufenden Betrieb für eine Analyse geändert werden (was übrigens auch ihre Weiterverwendung limitiert).

Datenpools komplett analysieren, aber nicht bewegen

Ein grundsätzlich anderer Weg ist, eine Analytics-Lösung zu nutzen, die wie ein Layer über den Datenquellen liegt und bei Bedarf dynamisch darauf zugreift. Viele der Tools, die Big Data verwalten und verarbeiten, haben genau hier Limitierungen. Sie verarbeiten Informationen in Batch Jobs und sind für Echtzeit-Anfragen und Interaktivität schlichtweg zu langsam.

Das Ziel ist klar: relevante Daten möglichst in Echtzeit für jeden berechtigen Anwender zugänglich zu machen – möglichst interaktiv. Dafür müssen eine Vielzahl an Datenquellen zur Verfügung gestellt werden – Quellen, die der Anwender möglicherweise nicht kennt und die von einer Engine dennoch transparent bereitgestellt werden müssen. Natürlich muss man sich dabei darauf verlassen können, dass die Datenquelle dabei nicht angetastet wird und die Beziehungen zwischen den Daten erhalten bleiben. In einem assoziativen Modell werden Daten aus verschiedensten Quellen und in variierenden Formaten integriert – ohne Datenverlust oder Datenfilterung während des Zugriffs.

Erst diese vollständige Betrachtung der Daten – ohne vorausgehende, limitierende Priorisierung, ohne Unterschiede – vermeidet blinde Flecken oder ungenaue Einsichten. Die Engine verarbeitet alles, was der Anwender sehen will oder darf. Allerdings muss sie dafür hochperformant sein und eine immense Menge an Daten aus vielen Quellen zusammenbringen. Wir haben es durch die Kombination von Big Data Indexing mit dem oben beschriebenen assoziativen Modell geschafft, 40 Milliarden Datenreihen blitzschnell zu analysieren.

Die Intelligenz der Engine sorgt darüber hinaus dafür, dass bei jedem Klick die Zusammenhänge aktualisiert werden, auch ungeübte Anwender mit dem Tool umgehen können und die Analysen dynamisch an Veränderungen angepasst werden. Erst so wird der interaktive Umgang und ein „Spielen“ mit den Daten spannend.

Martin Schindler

Martin Schindler schreibt nicht nur über die SAPs und IBMs dieser Welt, sondern hat auch eine Schwäche für ungewöhnliche und unterhaltsame Themen aus der Welt der IT.

Recent Posts

Cloud-Beschleuniger Covid

Vielfach hat die Coronapandemie bestehende IT-Strukturen aufgebrochen oder gar über den Haufen geworfen – gefühlt.…

10 Monate ago

Trends 2021 – Vier Entwicklungen bei (Graph)Datenbanken und Datenanalyse

Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen…

12 Monate ago

Ein globales digitales Identitätssystem muss Vertrauen und Transparenz schaffen

Nach Angaben der Weltbank fehlt mehr als einer Milliarde Menschen ein offizieller Identitätsnachweis. Ohne den…

12 Monate ago

Nachhaltigkeit wird zu einem der Schlüsselkriterien in der Tech-Industrie

Das Thema Nachhaltigkeit ist seit vielen Jahren fester Bestandteil des Selbstverständnisses vieler Unternehmen. Wenig verwunderlich,…

12 Monate ago

Chief Data Officer: Garanten für eine stärkere Datennutzung in Unternehmen

Unternehmen sammeln eine Vielzahl von Daten. Doch IDC Analysten fanden in ihrer aktuellen Studie „IDC‘s…

12 Monate ago

Ethik, Regulierungen, Cloud: Der Nebel lichtet sich

COVID-19 hat 2020 sowohl Gesellschaft als auch Wirtschaft bestimmt. Unbestritten ist auch die katalytische Wirkung,…

1 Jahr ago