MapR wird Spark-Distributor

Als Compute-Engine für Big-Data findet Spark eine immer größere Verbreitung bei Unternehmen. Nun integriert MapR die Technologie auch in die eigene Plattform.

Mit der Converged Data Platform unterstützt MapR bereits seit geraumer Zeit die Big-Data-Technologie Spark. Immer mehr Anwender nutzen das quelloffene Apache Spark als primäre Compue-Engine. Nun hat der Anbieter mit der eigenen Spark-Distribution jetzt eine integrierte Compute- und Storage-Engine für Analysen, Batch-Processing und die Echtzeit-Verarbeitung von Daten vorgelegt.

Die Distribution richtet sich an Unternehmen und soll vor allem die Funktionen des Frameworks mit den Features der MapR-Converged Data Plattform kombinieren. Damit werde die Handhabung der Sprache einfacher und auch zuverlässiger, verspricht Hersteller MapR.

Die MapR Converged Data Plattform. (Bild: MapR) — **Die MapR Converged Data Plattform mit den Unterstützten Engines, Anwendungen und Tools. (Bild: MapR)**

Die MapR-Spark-Distribution enthält die jüngste Version von Apache Spark und damit auch Features für das In-Memory-Processing von Big Data. Dadurch soll auch eine schnellere Entwicklung von Anwendungen und die Wiederverwendung von Code über Batch-, Interactive- und Streaming-Anwendungen hinweg möglich sein.

MapR will die Distribution auch als Quick Start Solution anbieten, die vorgefertigte Templates, Konfiguration und Installation umfasst. Damit sind einige gängige Einsatzbereiche von Spark wie etwa der Aufbau von Datenpipelines oder die Entwicklung von Machine-Learning-Analyse-Anwendungen schon vorbereitet.

**Die verschiedenen Komponenten der MapR-Spark-Distribution, die in erster Linie Funktionen aus der MapR-Plattform integriert. (Bild: MapR)**

Die Spark-Distribution unterstützt darüber hinaus erweiterte Analysen wie Batch-Processing, maschinelles Lernen, prozedurales SQL und Graph Computing.

Die MapR-Version kann darüber hinaus auch Technologien aus der MapR-Plattofrm wie Web-Scale-Storage, hohe Verfügbarkeit, Mirroring, Snapshots, NFS, Integrated Security oder Global Namespace nutzen. Die Spark-Distribution lässt sich zudem über MapR-Streams, MapR-DB und Hadoop als Add-ons für Echtzeit-Streaming oder Operational Analytics erweitern.

“Umfragen zeigen, dass die Nutzerzahlen von Apache Spark in Zukunft stark wachsen: 16 Prozent der Unternehmen nutzen Spark bereits, weitere 47 Prozent denken über den Einsatz nach”, so Nik Rouda, Senior Analyst bei dem Marktforschungsinstitut ESG. “Allerdings benötigen Unternehmen eine verlässliche Plattform, die den Herausforderungen ihres Tagesgeschäfts gewachsen ist.”

MapR Platform including Spark ist im Rahmen der MapR Converged Community Edition und der MapR Converged Enterprise Edition verfügbar.

Lesen Sie auch : HPE übernimmt Cray für 1,3 Milliarden Dollar