Weltrekord im Sortieren riesiger Datenmengen

Wissenschaftler am Karlsruher Institut für Technologie (KIT) haben nach eigenen Angaben ein neues, robusteres Sortierverfahren für sehr große Datenmengen entwickelt. Damit übertreffen sie den Sortierrekord des Massachusetts Institute of Technology (MIT).

Die KIT-Forscher erhöhten außerdem die Rekordzahl an Datensätzen, die in unter einer Minute sortiert werden können, auf 9,5 Milliarden (950 GB). Das ist mehr als das Dreifache des bisher vom MIT gehaltenen Rekords, der zudem auf einer größeren Maschine erzielt worden war. Auch der von Yahoo in dieser Kategorie neu eingereichte Wert lag um den Faktor zwei niedriger.

Zudem verbesserten die Karlsruher Wissenschaftler einen von Google im November 2008 aufgestellten Rekord beim schnellen Sortieren von 1 Billion Byte von 68 Sekunden auf 64 Sekunden, wiederum mit geringerem Hardware-Aufwand.

Der Vorsprung des Karlsruher Teams, so Sanders, “ergibt sich vor allem aus einem neuen Verfahren, das die Anzahl der Festplattenzugriffe und die Netzwerkkommunikation in die Nähe der minimal denkbaren Werte rückt.” Der Algorithmus sei zudem robuster als die meisten Konkurrenzverfahren, weil er eine gute Leistung für beliebige Eingabedatensätze garantiere.

Hinzu komme, so Sanders, “eine besonders effiziente Implementierung, welche die jeweils vier Festplatten und acht Prozessor-Kerne jedes Rechenknotens sehr gut auslasten kann.” Ermöglicht hätten dies am Institut entwickelte Software-Bibliotheken.