Virtueller Superrechner verbindet 60.000 Prozessoren

Das EU-Projekt “Enabling Grids for E-sciencE” (EGEE) ist in die dritte Phase gestartet. “Es geht uns darum, global verteile Rechenressourcen effizient nutzen zu können”, erklärt Rüdiger Berlich, Grid-Experte am Institut für Wissenschaftliches Rechnen des Forschungszentrums Karlsruhe. Mittlerweile sind 250 Standorte am Projekt beteiligt, die über 60.000 CPUs und mehr als 20 Petabyte Speicherplatz in das Grid-Computing-Projekt einbringen.

Das Ergebnis ist eine Art virtueller Superrechner. Eine seiner Aufgaben wird nach dem Start des Large Hadron Colliders (LHC) am Kernforschungsinstitut CERN die Verarbeitung der LHC-Datenmassen umfassen.

“In vielen Bereichen wie etwa der Bioinformatik existieren Daten und Datenzentren global verteilt”, beschreibt Berlich. Um die Rechenressourcen effizienter nutzen zu können, sind sie via Internet verbunden. “Darüber liegen Strukturen zur Authentifizierung und zur Autorisierung von Nutzern”, meint Berlich. Die EGEE-Middleware verhindert so den unbefugten Zugriff auf die Rechenressourcen des Grids. Das immer gegebene Risiko des Datendiebstahls im Internet könne sie allerdings nicht gänzlich eliminieren, so Berlich. Die gebündelte Leistungsfähigkeit der Standorte in 48 Ländern auch außerhalb Europas steht den rund 8000 Nutzern rund um die Uhr zur Verfügung. Ein automatischer “Resource Broker” übernimmt dabei die Zuweisung von Rechenleistung an die einzelnen Anfragen, um Lasten zu verteilen und Ressourcen möglichst optimal zu nutzen – bei aktuell über 150.000 Anfragen pro Tag.

Die Rechenleistung des Grids möchte Berlich nicht in Relation jener des Supercomputers JUGENE am Forschungszentrum (FZ) Jülich stellen, der ebenfalls über 60.000 Prozessoren nutzt. “Das kann nicht wirklich sinnvoll verglichen werden”, begründet der Grid-Experte. Für die üblichen Rechen-Jobs im Grid würden nur einige Hundert bis wenige Tausend CPUs genutzt. In Projekten gäbe es oft Berechnungen an mehreren Standorten, die jeweils die lokal vorhandenen Ressourcen von Grid-Partnern nutzen und nur fallweise Daten miteinander austauschen müssen. Bei solchen Aufgaben könne das Grid optimal genutzt werden. Für hochparallele Aufgaben mit ständiger, intensiver Kommunikation zwischen den Rechenknoten dagegen wäre ein entsprechend starker, einzelner Supercomputer geeigneter.

Eine spezielle Anwendung von EGEE wird die Datenauswertung für den LHC sein, der im Sommer dieses Jahres in Vollbetrieb gehen soll. Die Beschleuniger-Experimente zur Elementarteilchenphysik werden voraussichtlich mehr als 15 Petabyte an Daten pro Jahr liefern. Die Bewältigung der Datenmassen via Grid biete in diesem Fall auch den Vorteil, dass die vielen internationalen LHC-Projektpartner zumindest im Bereich der Rechenressourcen lokal investieren könnten, meint Berlich. Das EGEE-Projekt wurde bereits 2004 gestartet und geht nach zwei erfolgreichen Zwei-Jahres-Phasen nun in die dritte derartige Periode. Dabei wird auch mit anderen Grid-Initiativen kooperiert. Unter anderem werde daran gearbeitet, die Middleware von EGEE mit der UNICORE-Middleware kompatibel zu machen, so Berlich.