Hadoop 2.0 lässt Batch-Verarbeitung hinter sich

Hortonworks stellt eine Preview auf Hadoop 2.0 vor: Wichtigster neuer Baustein ist hier YARN, das parallele Analyse-Prozesse innerhalb eines Cluster ermöglicht. Quelle: Hortonworks

Mit HDP 2.0 stellt das Unternehmen eine architekturelle Neuausrichtung von Hadoop vor. Wichtigste Neuerung dürfte YARN sein. YARN steht für (Yet Another Resouce Negotiator). Dieses Tool ist eine Weiterentwicklung des MapReduce-Job-Scheduler.


YARN erweitert die Fähigkeiten von MapReduce, das eigentlich hauptsächlich Batch-Prozesse verwaltet, analysiert und dann die Ergebnisse zurück gibt.

YARN hingegen ist laut Hortonworks vielmehr ein Framework, das nicht nur Batch-Prozesse analysieren kann, sondern auch Daten-Streams und zudem interaktive Abfragen analysieren kann. So könnten jetzt ein Batch-Prozess und eine interaktive SQL-Abfrage in YARN parallel laufen.

Um mit Hadoop 1.0 verschiedene Jobs erledigen zu können, mussten mehrere Hadoop-Cluster vorgehalten werden. Mit YARN können innerhalb eines Clusters mehrere Jobs parallel laufen, ohne, dass ein Job sämtliche Ressourcen für sich beansprucht.

Neu ist auch Apache Tez, das MapReduce erweitert, so dass damit auch DAG-Prozesse möglich sind (Directed Acyclic Graph). Tez ermögliche damit laut Hortonworks, dass Apache Pig und Hive sehr schnelle Antwortzeiten liefern und dass diese Technologien mit Daten im Petabyte-bereich zurechtkommen. Mit Stinger könne Hive die Performance von Abfragen um den Faktor 50 beschleunigen. Zudem erweitere Stinger den Bereich der SQL-Semantics in Hadoop. Das ermögliche auch SQL-Abfragen gegen ein Hadoop-Repository zu fahren.

Mit diesen neuen Funktionen behebt Hortonsworks ein Problem, das aus der Geschichte Hadoops stammt. Ursprünglich wurde diese Plattform vor allem verwendet, um Inhalte im Web zu analysieren. Jetzt aber werde Hadoop viel breiter eingesetzt.

Die Testversion ist für Oracle Virtual Box und VMware verfügbar.

Redaktion

Recent Posts

IT-Verantwortliche setzen auf KI-Hosting in Europa

Studie von OVHcloud verdeutlicht Stellenwert von Datenresidenz und Datensouveränität bei KI-Anwendungen.

19 Stunden ago

Studie: KI-Technologie unverzichtbar für zukunftsfähige Paketlogistik

Mit KI können Unternehmen der Paketbranche Prozesse optimieren, Kosten einsparen und sich zukunftssicher aufstellen.

19 Stunden ago

Microsoft Teams in der öffentlichen Verwaltung

Land Niedersachsen schließt datenschutzrechtliche Vereinbarung mit Microsoft zur Nutzung von Teams ab.

2 Tagen ago

Diebstahlsicherung mit KI

Ein Großteil der Inventurdifferenzen im deutschen Einzelhandel wird durch Ladendiebstähle verursacht.

2 Tagen ago

Neue, aggressive Wellen an DDoS-Attacken

DDoS-Angriffe haben seit dem Beginn des Krieges zwischen Russland und der Ukraine an Häufigkeit und…

4 Tagen ago

Excel als Rückgrat deutscher Lieferkettenplanung

Lieferkettenplanung in Deutschland auf Basis von Excel bei 37 Prozent der befragten Unternehmen im Einsatz.

6 Tagen ago