Facebook sowie WhatsApp und Instagram waren am Montag, den 4. Oktober, von einem weltweiten Ausfall betroffen, der um ca. 17:44 Uhr MESZ begann und sich bis in den Abend hinzog.

In einem anschließenden Blog-Post erklärte Santosh Janardhan, Vizepräsident für Infrastruktur bei Facebook, dass der Ausfall durch ein technisches Problem verursacht wurde, das das Border Gateway Protocol (BCP) Routing-System betraf, das “einen kaskadenartigen Effekt auf die Art und Weise hatte, wie unsere Rechenzentren kommunizieren, und unsere Dienste zum Stillstand brachte”.

Der Ausfall vom Montag betraf auch interne Tools bei Facebook, die die Diagnose und Behebung des Problems erschwerten, so Janardhan. Wie die New York Times berichtet, wurden durch den Ausfall die Zugangskarten der Techniker unbrauchbar, so dass die Mitarbeiter nicht in die Gebäude gelangen konnten, in denen die betroffenen Server untergebracht waren.

“Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben”, so Janardhan.

“Unsere Dienste sind jetzt wieder online und wir arbeiten aktiv daran, sie vollständig in den regulären Betrieb zurückzuführen. Wir möchten an dieser Stelle klarstellen, dass wir glauben, dass die Hauptursache für diesen Ausfall eine fehlerhafte Konfigurationsänderung war.”

BGP wurde ursprünglich entwickelt, um Internetdienstanbieter auf der ganzen Welt miteinander zu verbinden. Heute bildet es das Routing-Backbone des Internets.

Auch Facebook nutzt BGP als Grundlage für sein Routing-Design im Rechenzentrum. In einem im Mai 2021 veröffentlichten Blog-Beitrag erklärten Facebook-Forscher, das Routing-Design solle es dem Unternehmen ermöglichen, “unser Netzwerk schnell aufzubauen und eine hohe Verfügbarkeit unserer Dienste zu gewährleisten, während das Design selbst skalierbar bleibt.”

Die Forscher stellen jedoch auch fest, dass BGP “eine enge Abstimmung mit der Topologie des Rechenzentrums, der Konfiguration, der Switch-Software und der rechenzentrumsweiten Betriebspipeline erfordert.” Ironischerweise wurde die Routing-Konfiguration des Rechenzentrums von Facebook speziell dafür entwickelt, die Auswirkungen von Ausfällen zu minimieren. Laut Facebook wurden durch den Ausfall am Montag keine Nutzerdaten in Mitleidenschaft gezogen.