Big Data: Wer braucht eigentlich Hadoop?

Immer mehr, vor allem große Unternehmen mit großen und rechenintensiven Datenmengen, nutzen das Apache-Projekt Hadoop. Eine vielversprechende Technologie, doch für ein Mainstream-Produkt ist die Zeit für Hadoop noch nicht gekommen.

Yahoo, IBM und Facebook nutzen Hadoop, ein Projekt das nicht umsonst einen Elefanten im Logo hat. Allerdings bringen die bis in den Petabyte-Bereich skalierbare Cloud-Technologie für unstrukturierte Inhalte und die eingebetteten Advanced-Analytics-Funktionen auch einige Probleme mit sich. Die wenigsten Anwender beherrschen damit zusammenhängende Technologien, wie etwa Googles Algorithmus MapReduce.

In einem Blog erklärt der Forrester-Analyst James Kobielus, dass Hadoop zwar in einigen Unternehmen bereits Realität ist, dass aber diese Implementierungen bislang neben MapReduce als Modelierungs-Abstraktionsschicht, kaum Gemeinsamkeiten aufweisen. Trotz einiger Hindernisse lässt Kobielus keinen Zweifel aufkommen, dass Hadoop die Cloud-Data-Warehousing-Technologie der Zukunft ist.

Was gibt es noch zu tun? Die Standardisierung fehlt bislang. Die Apache Software Foundation, die diese Technologie inzwischen zu einem Top-Level-Projekt erhoben hat, sollte einen Standardisierungsprozess initiieren. Der Grad der Standardisierung, den die SOA-Welt schon vorweisen könne, müsse im Bereich Big Data erst noch vollzogen werden.

Ein weiteres Problem ist, dass derzeit noch zu wenige Anbieter Hadoop-Kerntechnologien wie Hadoop Distributed File System (HDFS), Hive oder Pig unterstützten. Bislang unterstützten nur IBM und EMC Greenplum Hadoop mit zentralen Lösungen. “Andere führende EDW-Vendors (Enterprise Data Warehouse) haben Hadoop-Schnittstellen, die nur eine Armlänge weit reichen”, kritisierte Kobielus. Auch das sei ein schwerer Hinderungsgrund für eine großflächige Verbreitung.

An anderer Stelle erklärt Kobielus: “Wenn wir sehen, wie viel an allermodernster Cloud-Analytic in Hadoop-Clustern passiert, dann ist es nur eine Frage der Zeit, bis alle EDW-Vendors Hadoop zum Herzstück ihrer Architekturen machen.” Spätestens in ein bis zwei Jahren werde es laut Ansicht von Kobielus so weit sein. In einem ersten Schritt aber werden es zunächst Konnektoren sein, mit denen die Hersteller ihre Produkte mit Hadoop-Technologien verbinden. Hersteller, die diesen Schritt nicht freiwillig gehen, werde die Gegebenheiten des Marktes zwingen, entsprechende Schnittstellen einzubauen, glaubt Kobielus.

Neben IBM und ECM ist Informatica einer der ersten Hersteller, die einen derartigen Konnektor anbieten. Eine Hadoop-Schnittstelle ist nun auch Bestandteil von Informatica 9.1. So verfügt diese Version über einen Konnektor für HDFS, der Anwendern erlaubt, Daten über einen Hadoop-Cluster zu verarbeiten. Damit entfalle auch die Notwenigkeit von speziellen Kenntnissen über Hadoop, wirbt Informatica, das sich mit dieser Veröffentlichung ganz dem Big Data verschrieben hat. Anders aber als die Integration mit Datenbanken wie Oracle oder DB2, müssen die Konnektoren für Hadoop und für soziale Netze wie Facebook, Twitter oder LinkedIn gesondert erworben werden.

Hadoop steht also noch in einem recht frühen Stadium. Und dem Vorbild von Informatica werden vermutlich noch andere Anbieter in den nächsten Wochen und Monaten folgen. Was Kobielus außerdem fordert, sind IDEs (Integrated Development Environments) für Hadoop von Herstellern wie Informatica.

Aber wenn es erst einmal so weit ist, dann werden “Entwickler Inline-Analytics-Modelle schaffen, die eine schwindelerregende Bandbreite von Clouds, Event Streams, Dateisystemen, Datenbanken, Complex-Event-Processing-Plattformen, Business-Process-Management-Systeme und Information-as-a-Services mit einbeziehen”.