Big Data Benchmarking – Was taugen Hardware und Software für Big Data?

Wie lassen sich Standardanwendungen für den Einsatz zusammen mit großen Datenmengen bewerten und Vergleichen. Derzeit zeichnet gibt es zwei verschiedene Benchmarks, die solche Vergleiche ermöglichen könnten.

Big-Data-Geeignet? Quelle: HPI
Big-Data-Geeignet? Quelle: HPI

Der fünfte internationale Workshop zu Leistungsvergleichen im Bereich Big Data findet in diesem Jahr am Hasso-Plattner-Institut in Potsdam statt. Das so genannte Big Data Benchmarking wollen rund 80 Vertreter aus Industrie und Wissenschaft erörtern. Das Treffen wird am 5. und 6. August in Potsdam stattfinden.

“Ziel der Workshops ist es, für Standardanwendungen in der Wirtschaft Eckdaten zu entwickeln, die Hardware- und Softwaresysteme für große Datenmengen bewerten helfen”, erläuterte Dr. Matthias Uflacker, Ausrichter des Workshops und Lehrstuhlvertreter am HPI-Fachgebiet Enterprise Platform and Integration Concepts. Bilsang fehlt jedoch eine derartige Methodologie.

Zudem werden an diese Benchmarks ganz bestimmte Anforderungen gestellt: Ein solcher Industrie-Standards sollte auf Anwendungsebene ansetzen und die Evaluation von Infrastruktur-Komponenten für Big-Data-Anwendungen für Anwender erleichtern. Dafür muss ein Benchmark einfach zu implementieren und auch einfach auszuführen sein. Natürlich muss ein solcher Benchmark auch die eigenen Kosten rechtfertigen und sollte sich an die aktuellen Gegebenheiten und Entwicklungen in der Industrie anpassen und die Ergebnisse sollten schlussendlich auch belastbar sein.

Seit 2012 versucht diese Gruppe, die unter der Leitung des Center for Large-Scale Data Systems Research des San Diego Supercomputer Centers einen Test zu standardisieren. Derzeit scheinen zwei Vorschläge besonders geprüft: BigBench, der auf dem Transaction Processing Performance Council’s Decision Support Benchmark (TPC-DS) basiert und diesen um semi-strukturierte und unstrukturierte Daten und Abfragen gegen solche Daten erweitert und Deep Analytics Pipeline.

Erste Ergebnisse des Workshops werden dann über Springer Lecture Notes in Computer Science veröffentlicht.

Auf dem Workshop sollen auch Fragen zur Hardware, Speicherformen, Datenbanken sowie weitere erörtert werden. Auch eine eine Gruppe von Wissenschaftlern des Hasso-Plattner-Instituts und Experten des SAP Innovation Centers in Potsdam wollen Erkenntnisse zu Kostenabschätzungen von Hauptspeicher-basierten Datenbanken und zur Datengenerierung für kundenspezifische Richtgrößen präsentieren.

Als Hauptredner des Potsdamer Big Data-Workshops werden jedoch die Wissenschaftler Umesh Dayal aus den Hewlett Packard Labs und Alexandru Iosup von der Technischen Universität Delft erwartet. Neben Fachwissenschaftlern aus aller Welt werden auch Vertreter von Unternehmen wie Amazon, Cisco, Facebook, Hewlett Packard, IBM, Intel, Oracle, Suse oder SAP erwartet.