Microsoft startet Azure Data Lake Store auf Linux

Bei Big Data kommt man um Hadoop und quelloffene Technologien nicht herum. Ein neuer Azure-Service für HDInsight, Microsofts Hadoop-Distribution, setzt nun auf Ubunutu auf, das macht es bestehenden Hadoop-Nutzern einfacher, auf Microsoft Azure zu migrieren.

Microsoft stellt mit dem Azure Data Lake Store einen Service vor, über den sich über die Cloud große Datensätze speichern und analysieren lassen. Der Dienst ist derzeit als Beta-Version unter dem Namen Azure Data Lake verfügbar. Der Service werde im Verlauf des Jahres frei gegeben. Der neue Microsoft Service ist mit dem Hadoop Distributed File System (HDFS) kompatibel.

Damit bekommen Anwender die analytischen Tools, die Hadoop-Nutzer gewohnt sind. Microsoft ergänzt diese mit eigenen Entwicklungen. So können Nutzer des Data Lake Store die Daten im HDFS-Format abspeichern und diese mit Daten aus anderen Datenquellen auf Azure kombinieren.

Microsoft stellt den neuen Azure Data Lake Store vor und geht damit ein weiteres Mal auf Open Source zu. (Bild: Microsof)
Microsoft stellt den neuen Azure Data Lake Store vor und geht damit ein weiteres Mal auf Open Source zu. (Bild: Microsof)

Dadurch, dass der Dienst mit HDFS kompatibel ist, können Anwender auch mit Lösungen, die HDFS unterstützen, auf die in dem Store in Azure Data Lake gespeicherten Daten zugreifen. Als Beispiele nennt Microsoft Cloudera, Hortonworks oder MapR.

Ebenfalls im Laufe des Jahres wolle Microsoft den neuen Service Data Lake Analytics vorstellen. Auch für diesen Service verwendet Microsoft zahlreiche Open-Source-Technologien wie Apache YARN, das die Verarbeitung der Daten sicherstellt.

Für Data Lake Analytics stellt Micorosft auch die SQL-Abfrage U-SQL bereit, über die Nutzer in SQL in den Datensätzen in Haddop arbeiten können. Somit können Nutzer Neben YARN-Analysen auch U-SQL verwenden. Der Vorteil dabei ist, dass so neben der .Net-Runtime auch herkömmliche SQL-Ausdrücke verwendet werden können. Ein weiterer Vorteil dabei ist, dass so auch Daten analysiert werden können, die in SQL Server in Azure, Azure SQL Database oder im Azure SQL Data Warehouse gespeichert sind.

Daneben können Anwender auch über die Azure Data Lake Tools for Visual Studio in der Entwicklerumgebung Anwendungen für den Azure Data Lake verfassen. Auch das Debugging von entsprechenden Anwendungen soll so vereinfacht werden, heißt es von Microsoft.

Anwender können neben Hadoop auf Azure auch die verwaltete Hadoop-Distribution von Microsoft, HDInsight, verwenden. Seit heute ist auch eine Linux-HDInsight-Version auf Azure auf Basis von Ubuntu verfügbar. Eine Version für Windows bietet Microsoft seit 2013 an. Damit können Anwender jetzt auf verschiedene quelloffene Analytic-Tools wie Hive, Spark, Storm oder HBase zurückgreifen und Managed Clusters auf Linux verwenden.

Zusammen mit Hortonworks und Canonical habe Microsoft die HDP-Distribution von Ubuntu entwickelt, die die Grundlage für die Linux-Version von HDInsight liefert. Dadurch, wie es in einem Canonical-Blog heißt, werde es auch für Anwender einfacher, On-Premises-Hadoop-Deployments in die Cloud zu migireren. Gleichzeitig würden auch hybride Szenarien einfacher realisierbar werden.

Microsofts Zielsetzung mit den neuen Angeboten ist klar. Einerseits sollen diejenigen Anwender, die bereits mit quelloffenen Technologien arbeiten ebenfalls Azure verwenden können. Auf der anderen Seite sollen die neuen Services das Arbeiten mit den verschiedenen Open-Source-Technologien rund um Hadoop möglichst einfach gestalten. Oder wie T.K. “Ranga” Rengajarian, Vice President Data Platform Corpoarte bei Microsoft erklärt: Anwender sollen “maximale Informationen aus allen Daten, überall herauszuziehen können.”

Zudem betont Rengajarian, dass immer mehr ISVs Tools liefern, um damit über HDInsight Big-Data-Lösungen auf Azure zu bringen.

 

Zahlreiche ISVs entwerfen bereits Lösungen für HDInsight auf Azure. (Bild: Microsoft)
Zahlreiche ISVs entwerfen bereits Lösungen für HDInsight auf Azure. (Bild: Microsoft)