Data & StorageDatenbank

AWS integriert Spark in Elastic MapReduce

Logo Spark
1 0 Keine Kommentare

Mit der Unterstützung von Spark durch Amazons Webdienst sollen Unternehmen die Möglichkeit erhalten, die Verarbeitungs-Engine zu nutzen ohne eine eigene Infrastruktur aufzubauen. Auch IBM engagiert sich bei Apache Spark.

Amazon Web Services hat den Webdienst Elastic MapReduce (EMR) um eine Unterstützung von Apache Spark erweitert. Nutzer können die Verarbeitungs-Engine auf Amazon Elastic Compute Cloud (EC2) Instanzen erstellen, verwalten und skalieren.

Spark nutzt AWS zufolge die Vorteile von Amazon EMR FS (EMRFS), um direkt auf Daten in Amazon Simple Storage Service (S3) und Kosten für die Verwendung von EC2-Kapazitäten zu senken.

EMR unterstützt die Spark-Version 1.3.1 und nutzt Hadoop Yarn als Cluster-Manager. Zwar konnte bereits zuvor Spark auf EMR eingesetzt werden, aber durch die integrierte Unterstützung soll die Verwendung der Engine vereinfacht werden Administratoren können beispielsweise über die AWS Management-Konsole direkt einen Cluster erstellen.

Spark beinhaltet Spark SQL, MLlib, Spark Streaming und GraphX. Nutzer können auch Ganglia auf Amazon EMR installieren, um mehr Überwachungsmöglichkeiten in Sparks zu integrieren. Unter anderem ist es möglich Arbeitslasten zu Spark zu senden.

AWS-Logo (Bild: Amazon)Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. 2010 erfolgte die Offenlegung des Codes. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler anbietet.

Bereits Anfang der Woche hatte IBM bekanntgegeben, dass es sich bei Apache Spark engagieren will. So sollen sich künftig bei IBM bis zu 3500 Entwickler mit Projekten rund um Spark beschäftigen. Zur gleichen Zeit ist auch Version 1.4 der quelloffenen In-memory-Datenverarbeitungs-Engine erschienen.

In der Version Spark 1.4 führt Spark die Unterstützung für Python 3 und die Statistik-Sprache R ein. Mit einer Dataframe API lassen Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitern, über die sich Statistiken auswerten lassen.

Andre ist Jahrgang 1983 und unterstützte von September 2013 bis September 2015 die Redaktion von silicon.de als Volontär. Erste Erfahrungen sammelte er als Werkstudent in den Redaktionen von GMX und web.de. Anschließend absolvierte er ein redaktionelles Praktikum bei Weka Media Publishing. Andre hat erfolgreich ein Studium in politischen Wissenschaften an der Hochschule für Politik in München abgeschlossen. Privat interessiert er sich für Sport, Filme und Computerspiele. Aber die größte Leidenschaft ist die Fotografie.

Folgen