Hadoop-Distributionen im Vergleich

Hadoop-Distributionen basieren zwar auf der gleichen Technologie. Doch in der Praxis weisen die einzelnen Angebote häufig starke Unterschiede in Verwaltung und bei Funktionalitäten auf.

barc-logoZum ersten Mal widmet sich BARC, das Business Application Research Center, in einer vergleichenden Untersuchung den verschiedenen Hadoop-Distributionen. Hadoop ist nicht nur ein Apache-Projekt, das seit 2008 verschiedene Komponenten für Verwaltung und Zugriff auf große Mengen polystrukturierter Daten liefert, sondern entwickelt sich derzeit auch zu einem de facto Standard für Big Data. Aufgrund des großen Interesses in der Industrie entwickelt sich Hadoop aber auch sehr schnell weiter.

Die Entwicklung der quelloffenen Hadoop-Technologien konzentrieren sich derzeit auf Themen wie Sicherheit, Stabilität und Performance. Auch Themen wie analytische Funktionen, Anwendbarkeit sowie Verwaltung und Pflege des komplexen Frameworks werden in der Community vorangetrieben.

“Das Versprechen kommerzieller Softwareanbieter ist es somit, die Community-getriebene Open Source Apache Hadoop Distribution ‘unternehmensfähig’ auch für die Ansprüche von Großunternehmen nutzbar zu machen. Begleitend ist hierfür ein verlässlicher Support anzubieten und Fragen der Haftung zu klären”, kommentiert Sascha Alexander von BARC.

Kommerzielle Angebote bauen auf dem Apache-Projekt auf und versuchen über eigene Anpassungen Schwächen zu beseitigen, Lücken zu füllen und durch einen Mehrwehrt im Markt zu punkten.

Laut BARC-Studie ist den kommerziellen Distributionen gemein, dass die vielen verschiedenen Komponenten und Werkzeuge die in Hadoop-Umgebungen für die Integration, Speicherung, Zugriff, Analyse und das Reporting zum Einsatz kommen, vereinfacht werden sollen. Vor allem das Datenmanagement soll durch einheitliche Administrationskomponente vereinfacht werden.

In der Praxis würden laut Studie vor allem in den Bereichen Datenmanagement, Security, Analytics und Benutzerfreundlichkeit Unterschiede zwischen den Angeboten zu Tage treten.

Zudem konkurrieren aktuell reine Hadoop-Distributionen wie Cloudera, Hortonworks oder MapR, mit Software-Stack-Anbieter wie IBM und Speicherlösungs-Anbieter mit Hadoop-Angebot wie NetApp, Pivotal. Weitere Konkurrenz-Angebote kommen von Cloud-Service-Anbietern wie Amazon, Microsoft oder Rackspace.

Um in diesem vielschichtigen Markt eine Übersicht zu bieten, untersucht BARC in der Marktübersicht  “Hadoop-Distributionen im Vergleich” die fünf eigenständigen kommerziellen Hadoop-Distributionen Cloudera, Hortonworks, IBM, MapR und Pivotal. Darüber hinaus liefert die Untersuchung eine Einführung zu Hadoop.

“In dem Maße wie in den kommenden Monaten solche Datenmanagementfunktionen in Open-Source-Distributionen wie ‘Hortonworks’ verfügbar werden, wird sich der bislang noch teuer bezahlte ‘Added Value’ anderer Distributionen nicht mehr rechtfertigen lassen”,  kommentiert Timm Grosser, Co-Autor und Senior Analyst beim BARC, die weitere Entwicklung. “Unternehmen sollten aufgrund seiner großen Dynamik den Hadoop-Markt die eingesetzten Distributionen kontinuierlich evaluieren.”

 

Eigenständige Hadoop-Distribution Partnerschaften mit eigenständigen Hadoop-Distributionen

Software-
Angebot

Appliance-
Angebot

Cloud-Angebot

Cloudera Enterprise

x

Oracle Big Data Appliance

x

Netapp Open Solution for Hadoop

x

Hortonworks Data Platform (HDP)

x

Microsoft HDInsight, Azure

x

x

Teradata Appliance for Hadoop

x

Rackspace Managed Big Data

x

IBM InfoSphere BigInsights Hadoop

x

MapR M3, M5, M7

x

Amazon Elastic MapR

x

Pivotal HD

x

 

Tabelle:  Übersicht und Einordnung der Hadoop-Partnerschaften. Quelle: BARC