So baut man ein datenintensives Ökosystem

Data Lakes, also Datenseen, sind momentan ein wichtiges Buzzword in der Branche – es gibt kaum jemanden, der nicht plant, einen Data Lake zu bauen. Aber ich fürchte, dass der Lake schnell zum Swamp – also, einem Sumpf – wird. Bedenken wir die Richtung, in die wir uns aktuell bewegen, sind Begriffe wie Lakes, Swamps, Reservoirs oder Namen von anderen großen Datenkörpern nicht ganz passend. Sie helfen vielleicht dabei, die Lösung zu visualisieren, am Ende des Tages sorgen sie aber eher für Verwirrung.

Fangen wir doch einfach nochmal von vorne an:

Es ist ein Goodwill-Laden

Ein Goodwill-Laden ist eine Art Second Hand-Geschäft der US-amerikanischen Non-Profit-Gesellschaft Goodwill Industries. Wer hier her kommt, weiß, dass alles gebraucht ist – Klamotten, Kunst, Bücher, Musikinstrumente, Elektrogeräte etc. Dies ist vergleichbar mit Daten, die ihrem Quellensystem bereits Mehrwert geliefert haben und nun nicht mehr exklusiv sein müssen. In anderen Worten: Es ist Zeit für die Daten, für die Community zu arbeiten.

Label schaffen Überblick am Wühltisch

Nicht alles, was Sie spenden, eignet sich auch für den Verkauf. Beachten Sie also ein paar grundlegende Regeln, wenn es um Ihre Daten geht. Was sind das für Regeln? Sie benötigen Metadaten. Jede Eingabe in den Data Lake muss folgende Fragen beantworten können: warum, wer, was, wann, wo und wie? Aber fangen Sie nicht an, logisch Metadaten im Lake zu kreieren – das ist nicht nötig. Das vorgeschaltete System, das die Daten liefert, integriert die Informationen während der Übertragung.

Daten müssen sterben

Haben Sie sich jemals darüber gewundert, warum Finanzwebseiten öffentlich mit 15 Minuten Verzögerung operieren? Das kommt daher, dass die Daten dann bereits “historisch” sind und nicht mehr für den Handel genutzt werden können – sie sind bereits alt. Es ist nicht falsch, alle verfügbaren Daten zu verarbeiten. Die Frage ist eher, was hat man davon? Warum sollte der Lake anders sein? Das Quellensystem sollte einen Zeitpunkt festlegen, der auf Metadaten basiert, der dem Lake mitteilt, wann die Daten ausgemustert werden können. Es liegt also am Lake selbst, die Daten basierend auf seinen Anforderungen auszurangieren.

Bewerten Sie Ihre Daten

Daten sind vielfältig – von Rohdaten bis hin zu bearbeiteten Daten. Die Herausforderung ist es, in der Lage zu sein, die Daten gleichermaßen zu bewerten. Für manche Anwender ist die Qualität der Daten wichtiger, für andere die Quantität. Viele Bewertungsalgorithmen repräsentieren jedoch nur eine Dimension, zum Beispiel den Mehrwert, wie er von der Quelle erfasst wird. Eine Strategie könnte es sein, all diese Bewertungen von Quellen und Anwendern zu sammeln und einen Durchschnittswert zu errechnen – dies wäre aber immer noch eindimensional. Eine andere Strategie könnte die Bewertungen von nur einer einzigen Quelle tracken. Ein Anwender wird auch zum Lieferanten, wenn er den Report (Daten) zurück mit seiner Bewertung zurück in den Lake postet. Ist die Beziehung zwischen Report und Quellendaten einmal hergestellt, wird die Bewertung zweidimensional. Jetzt können Sie sich vorstellen, welche Mengen an Daten und Metadaten in den Lake fließen. Obwohl dies natürlich nicht mit dem Datenvolumen zu vergleichen ist, das durch Twitter fließt – aber für Ihr Unternehmen ist es eine ordentliche Hausnummer.

Damit aus dem Data-Lake kein Sumpf wird, sollte man sich nicht mit Begrifflichkeiten aufhalten, rät Dirk Häussermann von Informatica. Am Ende zählt der Nutzen, den man aus den Daten gewinnt. (Bild: M. Schindler)

Verdienen Sie Ihr Pfadfinderabzeichen

Der Lake ist für jeden, aber nicht für “jedermann”. Wichtig ist, dass die Daten geschützt werden. Natürlich haben Sie eine Perimeter-Verteidigung und verschiedene militärische Zonen eingeplant, um auf Ihre Daten zuzugreifen, aber was ist mit dem Inhalt der Daten? Für Verteidigungsorganisationen gehört dies zum Alltag und sie implementieren Schutzvorkehrungen für jedes einzelne Datenelement. Ihr Unternehmen kann sich diesen Komfort eventuell nicht leisten, da er auch die Performance beeinträchtigt. Aber man kann Peer-to-Peer Datensichtbarkeit implementieren. Sehen Sie es als eine Art Pfadfinderabzeichen an; verfügt der Anwender über ein Anbieterabzeichen, kann er entweder alle Daten sehen oder eben gar keine.

Mein Fazit: Halten Sie sich nicht mit den verschiedenen Begriffen auf. Benennen Sie den Vorgang, wie Sie möchten, solange Sie bekommen, was Sie möchten. Manchmal benötigt Ihr Unternehmen vielleicht eher Daten aus einem Swamp als “saubere Daten, die aus einem Wasserhahn” kommen.

Martin Schindler

Martin Schindler schreibt nicht nur über die SAPs und IBMs dieser Welt, sondern hat auch eine Schwäche für ungewöhnliche und unterhaltsame Themen aus der Welt der IT.

Recent Posts

Cloud-Beschleuniger Covid

Vielfach hat die Coronapandemie bestehende IT-Strukturen aufgebrochen oder gar über den Haufen geworfen – gefühlt.…

10 Monate ago

Trends 2021 – Vier Entwicklungen bei (Graph)Datenbanken und Datenanalyse

Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen…

12 Monate ago

Ein globales digitales Identitätssystem muss Vertrauen und Transparenz schaffen

Nach Angaben der Weltbank fehlt mehr als einer Milliarde Menschen ein offizieller Identitätsnachweis. Ohne den…

12 Monate ago

Nachhaltigkeit wird zu einem der Schlüsselkriterien in der Tech-Industrie

Das Thema Nachhaltigkeit ist seit vielen Jahren fester Bestandteil des Selbstverständnisses vieler Unternehmen. Wenig verwunderlich,…

12 Monate ago

Chief Data Officer: Garanten für eine stärkere Datennutzung in Unternehmen

Unternehmen sammeln eine Vielzahl von Daten. Doch IDC Analysten fanden in ihrer aktuellen Studie „IDC‘s…

12 Monate ago

Ethik, Regulierungen, Cloud: Der Nebel lichtet sich

COVID-19 hat 2020 sowohl Gesellschaft als auch Wirtschaft bestimmt. Unbestritten ist auch die katalytische Wirkung,…

1 Jahr ago