Hadoop 2.0 lässt Batch-Verarbeitung hinter sich

Hortonworks hat eine Preview von Apache Hadoop 2.0 vorgestellt. Die Big-Data-Plattform erfährt mit der architekturellen Neuausrichtung auch einen deutlich erweiterten Funktionsumfang.

Hortonworks stellt eine Preview auf Hadoop 2.0 vor: Wichtigster neuer Baustein ist hier YARN, das parallele Analyse-Prozesse innerhalb eines Cluster ermöglicht. Quelle: Hortonworks
Hortonworks stellt eine Preview auf Hadoop 2.0 vor: Wichtigster neuer Baustein ist hier YARN, das parallele Analyse-Prozesse innerhalb eines Cluster ermöglicht. Quelle: Hortonworks

Mit HDP 2.0 stellt das Unternehmen eine architekturelle Neuausrichtung von Hadoop vor. Wichtigste Neuerung dürfte YARN sein. YARN steht für (Yet Another Resouce Negotiator). Dieses Tool ist eine Weiterentwicklung des MapReduce-Job-Scheduler.


YARN erweitert die Fähigkeiten von MapReduce, das eigentlich hauptsächlich Batch-Prozesse verwaltet, analysiert und dann die Ergebnisse zurück gibt.

YARN hingegen ist laut Hortonworks vielmehr ein Framework, das nicht nur Batch-Prozesse analysieren kann, sondern auch Daten-Streams und zudem interaktive Abfragen analysieren kann. So könnten jetzt ein Batch-Prozess und eine interaktive SQL-Abfrage in YARN parallel laufen.

Um mit Hadoop 1.0 verschiedene Jobs erledigen zu können, mussten mehrere Hadoop-Cluster vorgehalten werden. Mit YARN können innerhalb eines Clusters mehrere Jobs parallel laufen, ohne, dass ein Job sämtliche Ressourcen für sich beansprucht.

Neu ist auch Apache Tez, das MapReduce erweitert, so dass damit auch DAG-Prozesse möglich sind (Directed Acyclic Graph). Tez ermögliche damit laut Hortonworks, dass Apache Pig und Hive sehr schnelle Antwortzeiten liefern und dass diese Technologien mit Daten im Petabyte-bereich zurechtkommen. Mit Stinger könne Hive die Performance von Abfragen um den Faktor 50 beschleunigen. Zudem erweitere Stinger den Bereich der SQL-Semantics in Hadoop. Das ermögliche auch SQL-Abfragen gegen ein Hadoop-Repository zu fahren.

Mit diesen neuen Funktionen behebt Hortonsworks ein Problem, das aus der Geschichte Hadoops stammt. Ursprünglich wurde diese Plattform vor allem verwendet, um Inhalte im Web zu analysieren. Jetzt aber werde Hadoop viel breiter eingesetzt.

Die Testversion ist für Oracle Virtual Box und VMware verfügbar.