Big Data Analytics

Mit Guido Oswald hat silicon.de einen neuen Blogger und Experten für Buiness Analytics und Big Data gewinnen können. In seinem ersten Beitrag beleuchtet Oswald die aktuellen Buzzwords und differenziert. Vor aber zeigt er auf, wo die Grenzen von derzeit recht verbreiteten Technologien liegen.

Der Hype um Big Data hat in diesem Jahr wohl den Höhepunkt erreicht. Viele neue Denkansätze und Technologien werden mit dieser Welle nach oben gespült – andere scheinen dem Datenberg einfach nicht gewachsen und drohen unter diesem vergraben zu werden.

Zeit einmal genauer hinzusehen und ein wenig zu differenzieren.

Das Big Data mehr ist als nur ein Buzzword und Neologismus zeigt die wachsende Akzeptanz im Markt. MarketsandMarkets schätzt das Marktvolumen bereits auf 15 Milliarden Dollar (mehr als 46 Milliarden in 2018). Das ist enorm und wahrscheinlich der derzeit am schnellsten wachsende Bereich in der IT.

Auch in meiner Position als Solution Architect sehe ich immer mehr Firmen die sich mit diesem Thema auseinandersetzen. Initiiert werden Big Data Projekte aus unterschiedlichsten Abteilungen und Ebenen – zum Teil von ganz oben, was die strategische Komponente eindrücklich unterstreicht.

Der Use-Case für Big Data ist dabei oftmals noch nicht fix definiert. Es ist derzeit eher ein Herantasten an mögliche Optionen und deren technische Umsetzung. Auch eine kürzlich durchgeführte Umfrage fördert viele der klassischen Anwendungsformen zu Tage – eben nur mit grossen Datenmengen und neuen bzw. andersartigen Formen derselben (z.B. alle Arten von unstrukturierten Daten).

Während die Anwendungen für Big Data denen heutiger Applikationen auf bestehenden Datawarehouses sehr ähnlich sind, sind die technologischen Ansätze jedoch deutlich unterschiedlich.

Der zu erwartende Nutzen ist in vielen Bereichen deutlich höher. Technische “Krücken” wie Sampling oder das Voraggregieren der Zahlen (z.B. OLAP) fallen mit den modernen Ansätzen wie In-Memory, In-Database, MPP (Massive Parallel Processing) und Self-Service BI einfach weg. Einige Vorreiter zeigen hier, welcher ROI (Return on Investment) möglich ist und wo die Sahnestückchen im grossen Big Data Kuchen zu erwarten sind.

Um jedoch die neuen technischen Verfahren sinnvoll einsetzen zu können, bedarf es (weiterhin) einer funktionierenden Data Governance. Denn leider gilt auch Big Garbage in = Big Garbage out – Will heissen: Themen wie Datenqualität, Datenintegration und evtl. Masterdatenmanagement bleiben aktuell und müssen jetzt mit grossen Datenmengen, unstrukturierten Daten und Echtzeit zurechtkommen. Auch hier wird es mit einigen der klassischen Architekturen schwierig bis unmöglich mit vernünftigem Aufwand zum Ziel zu kommen.
Ein Trend der hier auffällt ist die Verschiebung des Aufgabenbereichs der IT Abteilung. Viele der bisherigen Aufgaben verschieben sich zu den Anwendern (Self Service BI, Visual Analytics, einfache Datenaufbereitung, etc.). Damit bleibt Luft für die IT Spezialisten sich um andere Themen, wie eben die Data Governance, zu kümmern. Die Rolle des Data Stewards (Dateneigner) wird uns wohl in Zukunft häufiger begegnen.

Technologisch hört man im Zusammenhang mit Big Data immer wieder von Hadoop. Dem kleinen gelben Elefant wird nachgesagt er könne das zweite Linux im Rechenzentrum werden. Das sind viele Vorschusslorbeeren, aber Google & Co. haben ja schon gezeigt was diese Plattform zu leisten vermag.

Hadoop kann unglaublich günstig grosse Datenmengen speichern – und das sehr performant und sicher. Allerdings stellt das Framework nur die Grundlagen für die späteren Analysen bereit. Speziell wenn es um Advanced Analytics geht (also z.B. Forecasting, Optimierungen, Korrelationsanalysen, Text Analytics o.Ä.), kommt die preiswerte Open-Source Lösung schnell an ihre Grenzen.

Da hier aber meist der entscheidende Wettbewerbsvorteil (und damit der ROI) wartet, gilt es sich nach vernünftigen Lösungen umzusehen, die diese Lücken sinnvoll schliessen können

Zusammenfassend müssen auf folgende Punkte besonderes Augenmerk gelegt werden, sobald es um Big Data geht: