Categories: Data

AWS integriert Spark in Elastic MapReduce

Amazon Web Services hat den Webdienst Elastic MapReduce (EMR) um eine Unterstützung von Apache Spark erweitert. Nutzer können die Verarbeitungs-Engine auf Amazon Elastic Compute Cloud (EC2) Instanzen erstellen, verwalten und skalieren.

Spark nutzt AWS zufolge die Vorteile von Amazon EMR FS (EMRFS), um direkt auf Daten in Amazon Simple Storage Service (S3) und Kosten für die Verwendung von EC2-Kapazitäten zu senken.

EMR unterstützt die Spark-Version 1.3.1 und nutzt Hadoop Yarn als Cluster-Manager. Zwar konnte bereits zuvor Spark auf EMR eingesetzt werden, aber durch die integrierte Unterstützung soll die Verwendung der Engine vereinfacht werden Administratoren können beispielsweise über die AWS Management-Konsole direkt einen Cluster erstellen.

Spark beinhaltet Spark SQL, MLlib, Spark Streaming und GraphX. Nutzer können auch Ganglia auf Amazon EMR installieren, um mehr Überwachungsmöglichkeiten in Sparks zu integrieren. Unter anderem ist es möglich Arbeitslasten zu Spark zu senden.

Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. 2010 erfolgte die Offenlegung des Codes. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler anbietet.

Bereits Anfang der Woche hatte IBM bekanntgegeben, dass es sich bei Apache Spark engagieren will. So sollen sich künftig bei IBM bis zu 3500 Entwickler mit Projekten rund um Spark beschäftigen. Zur gleichen Zeit ist auch Version 1.4 der quelloffenen In-memory-Datenverarbeitungs-Engine erschienen.

In der Version Spark 1.4 führt Spark die Unterstützung für Python 3 und die Statistik-Sprache R ein. Mit einer Dataframe API lassen Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitern, über die sich Statistiken auswerten lassen.

Andre Borbe

Andre ist Jahrgang 1983 und unterstützte von September 2013 bis September 2015 die Redaktion von silicon.de als Volontär. Erste Erfahrungen sammelte er als Werkstudent in den Redaktionen von GMX und web.de. Anschließend absolvierte er ein redaktionelles Praktikum bei Weka Media Publishing. Andre hat erfolgreich ein Studium in politischen Wissenschaften an der Hochschule für Politik in München abgeschlossen. Privat interessiert er sich für Sport, Filme und Computerspiele. Aber die größte Leidenschaft ist die Fotografie.

Recent Posts

Kubernetes in Cloud-Umgebungen

Ein elementarer Bestandteil einer effektiven Cloud-Strategie ist nach erfolgter Implementierung die künftige Verwaltung des Dienstes.

2 Tagen ago

Aras erweitert seine PLM-Plattform

Die Neuerungen sollen den Digital Thread, die Low-Code-Entwicklung, die Visualisierung komplexer Baugruppen und das Lieferantenmanagement…

2 Tagen ago

Manufacturing-X: Zurückhaltung überwiegt

Eine Bitkom-Umfrage attestiert der Datenraum-Initiative des Bundes hohe Bekanntheit in der Industrie. Doch noch ist…

2 Tagen ago

Ransomware „Marke Eigenbau“

Ransomware-as-a-Service ist ein lukratives Geschäft und in den Händen professionell organisierter Gruppen. Jetzt können Kriminelle…

3 Tagen ago

Bad Bots: Risikofaktor mit hohen Folgekosten

Bad Bots richten nicht nur wirtschaftlichen Schaden an. Laut dem Bad Bot Report von Imperva…

4 Tagen ago

IT-Verantwortliche setzen auf KI-Hosting in Europa

Studie von OVHcloud verdeutlicht Stellenwert von Datenresidenz und Datensouveränität bei KI-Anwendungen.

5 Tagen ago