CERN sucht mit OpenStack nach dem Ursprung des Universums

LHC ATLAS (Bild: CERN)

100 PB Forschungsdaten: Immer höhere Ansprüche an die Rechenleistung am Forschungszentrum CERN stellen mehr als 44.000 Wissenschaftler. Eine Open Source Technologie verarbeitet nun die Anfragen der rund Physiker aus aller Welt: OpenStack.

Der Infrastructure Services Manager desQuelle: CERN Forschungszentrums CERN, Tim Bell, erläutert auf dem OpenStack Summit in Paris die Erfahrungen der Forschungseinrichtung mit der jungen Cloud-Technologie OpenStack. Mit eindrucksvollen Datenmengen muss Bell fertig werden. Wie er auf der ausverkauften Veranstaltung erklärt, habe der Large Hadron Collider (LHC) bislang ein Archiv von 100 Petabyte erzeugt. Jedes Jahr kommen nochmal 27 Petabyte hinzu.

Und die Datenflut wird weiter anschwellen: “Künftig erwarten wir etwa 400 PB pro Jahr bis 2023 und die Anforderungen an die Rechner werden um den Faktor 50 höher liegen als heute.” Dieser Anstieg erklärt sich damit, dass ab 2017 der LHC mit noch mehr Energie Teilchenkollisionen erzeugen wird, was für noch größere Datenmenten sorgen wird. Bislang ist man in dem Institut mit 11000 Servern klar gekommen. Derzeit wäre es kaum möglich das CERN-Rechenzentrum auf diese Anforderungen hin zu erweitern. Auch die Kühlung hätte dann nicht mehr gewährleistet werden können.

OpenStack-Tetris: Tim Bell illustriert das Wachstum virtueller Maschinen in der CERN-Cloud in den zurückliegenden 12 Monaten. Quelle: CERN
OpenStack-Tetris: Tim Bell illustriert das Wachstum virtueller Maschinen in der CERN-Cloud in den zurückliegenden 12 Monaten. Seit 2013 lauf vier Clouds produktiv mit OpenStack. Quelle: CERN

Daher habe man sich dafür entschieden, die Rechenleistungen auszulagern. Ein Standort in Budapest wurde festgelegt, auch deshalb weil es zwischen CERN und dem Zentrum in Budapest mit einer dualen 100GbE-Leitung eine leistungsfähige Verbindung gibt.

Nun müssen die IT-Leiter des CERN jedoch mit den Herausforderungen verschiedener ‘Clouds’ zurechtkommen. Insgesamt vier unterschiedliche OpenStack-Clouds gibt es jetzt am CERM. 7000 Kerne auf etwa 3000 Servern versorgen die größte Cloud. Doch schon im ersten Quartal 2015 werde diese OpenStack-Cloud 150 000 Kerne enthalten.

Dafür setzt man beim CERN heute die OpenStack Nova Cells ein. Damit werden Rechnerressourcen in größere Blöcke zusammengefasst, was die Skalierbarkeit der Anwendung verbessert. Zusammen mit dem Provider und OpenStack-Pionier Rackspace habe man in dem CERN Openlab ein Federated Identity Projekt gestartet. Diesen Code hat CERN nun wieder der Community zur Verfügung gestellt. Derzeit sind etwa 44.000 Nutzer im Identity-Management des CERN registriert. Und jeden Monat kommen rund 400 neue hinzu. “Abhängig von ihrer Rolle in der Organisation haben einige dieser Nutzer Administrationsrechte auch für die private Cloud”, erklärte Bell in einem Blog.

Ältere OpenStack-Versionen bieten zwar LDAP-Support. Doch habe es einiges an Arbeit gekostet, den Support von Active Directory für diese Größenordnungen, die das CERN benötigt, verfügbar zu machen. Das sei ohne die Hilfe der Open-Source-Community nicht möglich gewesen. Heute verarbeiten die verschiedenen Clouds am CERN die Kollisions-Rekonstruktionen auf OpenStack: “Cloud Technology hat es uns erlaubt schneller auf die Bedürfnisse unserer Nutzer zu reagieren und damit die Grenzen der Forschung zu erweitern, ohne dass wir darauf warten müssen, dass Hardware geliefert und konfiguriert wird”, kommentiert Bell.

Tim Bell ist verantwortlich für die IT-Infrastruktur am CERM. Quelle: CERN
Tim Bell ist verantwortlich für die IT-Infrastruktur am CERN. Quelle: CERN

Die Europäische Organisation für Kernforschung, kurz CERN, hatte im Jahr 2012 das bis dato hypothtische Higgs Boson bestätigt. Dennoch hat das Universum längst noch nicht alle Geheimnisse Preis gegeben, zwei nach wie vor ungeklärte Bereiche etwa sind dunkle Materie und Gravitation. Mit dem Ausbau des Teilchenbeschleunigers hofft man bestimmte Teilchen nachweisen zu können, die das Verständnis der Natur noch vertiefen könnten.

Mit einem Beschleunigungs-Ring mit einer Strecke von 27 Kilometer im Kanton Genf ist der LHC wohl das größte Forschungslabor der Welt. Damit werden Teilchen beschleunigt und dann mit anderen kollidiert. Die riesenhaften Dedektoren machen 40 Millionen Aufnahmen pro Sekunde von einer Kollision. Und damit werden auch 1 Petabyte an Daten pro Sekunde generiert. Die 100 PB, die das Archiv schon jetzt füllt, werden von rund 11000 Servern verarbeitet und die Daten sollen für 20 Jahre gespeichert werden. Derzeit besteht das CERN-Archiv aus 75000 Platten und 45000 Tapes.

Nachdem auch dem CERN nicht unbgerenz IT-Budget zusteht, startete die Forschungseinrichtung im Jahr 2011 mit dem damals noch praktisch experimentellen OpenStack-Release Cactus. Seit dem Grizzly-Release im Jahr 2013 läuft die CERN-Cloud produktiv auf OpenStack. Sämtliche Veränderungen durch CERN am Code sind über github verfügbar.

Bell erklärt daher auf dem Summit in Paris: “Denken Sie daran, wenn Sie dabei helfen, OpenStack zu entwickeln, helfen Sie uns, zu verstehen, wie das Universum arbeitet und aus was es besteht.”