Deutsches Klimarechenzentrum nimmt riesiges Datenarchive in Betrieb

Data & StorageEnterpriseNetzwerkeStorage

Das Deutsche Klimarechenzentrum (DKRZ) hat eines der weltweit größten Datenarchive in Betrieb genommen. Die Maximalkapazität des Archivs liegt derzeit bei 60 Petabyte (60.000 Terabyte).

Im Rahmen dieser Lösung archiviert das DKRZ Daten aus den umfangreichen Klimasimulationen, die auf den Rechnern des Zentrums durchgeführt werden. Die Daten werden archiviert, um Wissenschaftlern die Auswertung und den Vergleich mit anderen Klimasimulationen und -szenarien zu ermöglichen.

Das Archiv hat im Sommer 2009 die Produktion aufgenommen und wird in Kürze die Daten für den nächsten Sachstandsbericht des Weltklimarats (IPCC AR5) aufnehmen. Die Berechnungen hierfür dauern mehr als ein Jahr. Die Auswertung und Analyse der Daten wird mindestens ebenso viel Zeit in Anspruch nehmen.

Die Lösung wurde auf Basis der von IBM mitentwickelten Datenmanagementsoftware HPSS (High-Performance-Storage-System) realisiert. HPSS ist ein hierarchisches Speichermanagementsystem, das zur Archivierung von extrem großen Datenmengen vor allem im Bereich des High-Performance-Computing zum Einsatz kommt. Mit dem installierten System nimmt das DKRZ einen Platz innerhalb der weltweit fünf größten HPSS-Installationen ein.

Eine besonders knifflige Aufgabe war die unterbrechungsarme Datenübernahme aus einem Bestandssystem. Das DKRZ hatte bisher das HSM-System DiskXtender UNIX/Linux von EMC im Einsatz. Auf den 32.000 vorhandenen Magnetbändern sind circa 25 Millionen Dateien archiviert. Die Bestandsdaten wurden in das HPSS übernommen, ohne die eigentlichen Daten zu kopieren. HPSS musste dazu das Datenformat der Bestandsdaten lesen und die Dateien auf den bestehenden Magnetbändern identifizieren lernen.

“Die neue Archivierungslösung versetzt uns überhaupt erst in die Lage, die enormen Datenmengen, die von den Klimaforschern auf immer schnelleren Rechnern gewonnen werden, zu bewältigen. Die gute Skalierbarkeit und die hochperformante Integration in den Power6-Cluster von IBM waren die entscheidenden Faktoren bei der Auswahl des HPSS-Systems”, sagt Ulf Garternicht, Technischer Leiter beim DKRZ.