Andreas Gödde

ist Spezialist für Big Data Analytics, Digitalisierung und IoT und leitet bei SAS den Presales.

Hadoop für Data Lakes – Nicht nur für Enterprises geeignet

Eine der modernen Mythen rund um Hadoop lautet, dass die quelloffene Technologie vor allem mit sehr großen Datenmengen zum Einsatz kommt. Andreas Gödde von SAS rückt diese Annahme in seinem ersten Blog für silicon.de zurecht.

Big Data erfordert neue Fähigkeiten und Technologien für modernes Datenmanagement, um die Daten optimal für Analysen aufzubereiten – und zwar schnell und flexibel –, ohne dass vorher die Abfragen schon feststehen müssen. Eine Komponente, die im Big-Data-Umfeld immer wieder auftaucht, ist das Framework Hadoop. Wie eine aktuelle BARC-Studie zeigt, ist die Technologie derzeit gar nicht unbedingt auf große Unternehmen und Datenvolumina abonniert, eignet sich jedoch bestens im Zusammenhang mit Analytics.

Hadoop gilt als Innovation, mit der sich Unternehmen beschäftigen müssen, um wirtschaftlichen Nutzen aus Big Data zu ziehen. Das Konzept des Data Lake als breit angelegte Datensammelstelle bildet die Grundvoraussetzung für datengetriebene Unternehmen. Versprechen dieser technologischen Ansätze: schnelle, effiziente, kostengünstige Möglichkeit, um jede beliebige Menge an Daten aus unterschiedlichen Systemen mit verschiedenen Strukturen zu managen, zu analysieren und zu nutzen. Aber erfüllt sich dieses Versprechen in der Realität oder steckt nur heiße Marketingluft dahinter? Mit dieser und weiteren Fragen hat sich die BARC-Studie “Hadoop and Data Lakes” beschäftigt, die vom Softwarehersteller SAS unterstützt wurde.

Wachsender Zuspruch

Wie die BARC-Studie zeigt, wächst die Anzahl produktiver Hadoop-Projekte, vor allem in Europa. Insbesondere in der DACH-Region verzeichnet die Technologie großen Sympathiegewinn: Der Einsatz stieg 2016 im Vergleich zum Vorjahr auf das Doppelte und liegt jetzt bei 8 Prozent der Unternehmen. Dabei gibt es ein sehr breites Spektrum von Hadoop-Systemen: Unternehmen aller Größen und Branchen mit verschiedenen Datenvolumina und -typen sowie unterschiedlichen Ansprüchen an die Datenaktualität setzen die Technologie bereits produktiv ein. Somit entwickelt sich Hadoop immer mehr von einem einfachen Ablagesystem zu einer Laufzeitumgebung für analytische Anwendungen.

bigData-Hadoop_R

Ein – wenn auch weitverbreiteter – Irrglaube ist laut Studie die Annahme, dass Hadoop primär bei großen Datenvolumina ins Spiel kommt. Die BARC-Studie zeigt stattdessen, dass die Mehrheit der Hadoop-Anwendungen (59 Prozent) geringe Datenmengen bis zu 25 Terabytes (TB) verarbeitet. Dies soll sich allerdings in den nächsten zwölf Monaten ändern: Es wird erwartet, dass der Anteil für große (> 500 TB) und sehr große (> 1 Petabyte) Datenmengen von 11 auf 25 Prozent beziehungsweise von 1 auf 8 Prozent steigen wird.

Besonders stark bei Customer Intelligence

Zu den Stärken von Hadoop gehören vor allem die Analyse heterogener Daten aus unterschiedlichen Quellen (von 59 Prozent der Befragten weltweit genannt, in Europa sogar von 65 Prozent), die Vorhersage von Kundenverhalten (53 Prozent) und eine erhöhte Flexibilität (47 Prozent). Customer Intelligence (32 Prozent), beispielsweise in Form von „Next Best Offer“-Anwendungen auf Online-Portalen oder Datenanalyse am Point of Sale (PoS), und prädiktive Analyse (31 Prozent) gehören zu den typischen Einsatzgebieten für Hadoop.

Unternehmen, die Hadoop bereits im Einsatz haben, sehen als größte Vorteile die Umsetzung neuer Use Cases, die mit den vorhandenen Systemen nicht möglich waren. Kosteneinsparungen spielen dagegen eine untergeordnete Rolle bei der Entscheidung für oder gegen Hadoop und werden nur von 10 Prozent der Umfrageteilnehmer genannt. Noch immer gehören ein Mangel an professionellem Know-how (54 Prozent) und technischen Kompetenzen (50 Prozent) zu den größten Hindernissen beim Hadoop-Einsatz.

Entscheidung von Fall zu Fall

Die Studie räumt mit einigen Vorurteilen in Sachen Hadoop auf: Kosteneffizienz ist nicht der Hauptgrund für eine Implementierung, die Technologie wird (noch) nicht primär für Big Data eingesetzt. Zudem werden die Thesen relativiert, dass Hadoop die bevorzugte Technologie für den Aufbau eines Data Lake ist und funktionale Vorteile gegenüber “klassischen” BI-/DW-Tools mitbringt.

Ausgewähltes Whitepaper

Optimierungsbedarf bei Logistikprozessen?

Die Lösung lautet: Dokumentenmanagement. Erfahren Sie im kostenlosen E-Book, wie ein Dokumentenmanagement-System (DMS) Ihnen helfen kann, Ihre Logistikprozesse zu verbessern – von der Artikelnummer bis zur Zustellung. Lesen Sie außerdem, wie Sie ein DMS auch im laufenden Betrieb zeit- und kostensparend implementieren können.

Stattdessen hängt es von der jeweiligen Ausgangssituation ab – beispielsweise, welche Kompetenzen und Ressourcen vorhanden sind –, welcher Ansatz am besten passt. Und bei der Implementierung spielt zwar Flexibilität eine große Rolle, die Aspekte “schnell” und “einfach” sprechen jedoch laut BARC-Studie eher für die Wahl kommerzieller Tools und Hadoop-Distributionen. Last but not least wird Hadoop gegenwärtig vorrangig als Technologie für Analytics eingesetzt und weniger für die Online-/Echtzeitverarbeitung.

Fazit: Ob und wie Hadoop eingesetzt wird, sollte von Fall zu Fall entschieden werden. Das „Beste aus beiden Welten“ im Zusammenhang mit Hadoop und Datenanalyse kann dann heißen: eine starke Hadoop-Distribution in Kombination mit leistungsstarker Analytics, wie etwa die Partner Hortonworks und SAS sie bieten.