Categories: CloudCloud-Management

Facebook-Ausfall durch Fehlkonfiguration

Facebook sowie WhatsApp und Instagram waren am Montag, den 4. Oktober, von einem weltweiten Ausfall betroffen, der um ca. 17:44 Uhr MESZ begann und sich bis in den Abend hinzog.

In einem anschließenden Blog-Post erklärte Santosh Janardhan, Vizepräsident für Infrastruktur bei Facebook, dass der Ausfall durch ein technisches Problem verursacht wurde, das das Border Gateway Protocol (BCP) Routing-System betraf, das “einen kaskadenartigen Effekt auf die Art und Weise hatte, wie unsere Rechenzentren kommunizieren, und unsere Dienste zum Stillstand brachte”.

Der Ausfall vom Montag betraf auch interne Tools bei Facebook, die die Diagnose und Behebung des Problems erschwerten, so Janardhan. Wie die New York Times berichtet, wurden durch den Ausfall die Zugangskarten der Techniker unbrauchbar, so dass die Mitarbeiter nicht in die Gebäude gelangen konnten, in denen die betroffenen Server untergebracht waren.

“Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben”, so Janardhan.

“Unsere Dienste sind jetzt wieder online und wir arbeiten aktiv daran, sie vollständig in den regulären Betrieb zurückzuführen. Wir möchten an dieser Stelle klarstellen, dass wir glauben, dass die Hauptursache für diesen Ausfall eine fehlerhafte Konfigurationsänderung war.”

BGP wurde ursprünglich entwickelt, um Internetdienstanbieter auf der ganzen Welt miteinander zu verbinden. Heute bildet es das Routing-Backbone des Internets.

Auch Facebook nutzt BGP als Grundlage für sein Routing-Design im Rechenzentrum. In einem im Mai 2021 veröffentlichten Blog-Beitrag erklärten Facebook-Forscher, das Routing-Design solle es dem Unternehmen ermöglichen, “unser Netzwerk schnell aufzubauen und eine hohe Verfügbarkeit unserer Dienste zu gewährleisten, während das Design selbst skalierbar bleibt.”

Die Forscher stellen jedoch auch fest, dass BGP “eine enge Abstimmung mit der Topologie des Rechenzentrums, der Konfiguration, der Switch-Software und der rechenzentrumsweiten Betriebspipeline erfordert.” Ironischerweise wurde die Routing-Konfiguration des Rechenzentrums von Facebook speziell dafür entwickelt, die Auswirkungen von Ausfällen zu minimieren. Laut Facebook wurden durch den Ausfall am Montag keine Nutzerdaten in Mitleidenschaft gezogen.

Redaktion

Recent Posts

Bausteine für den verantwortungsvollen Einsatz von KI

Drei Bausteine bilden die Grundlage für eine KI-Governance: Dokumentation von KI-Projekten, Model Evaluation und Monitoring…

16 Stunden ago

Sicheres Identity Proofing im Remote-Betrieb

Eine Harmonisierung der Vorschriften für RIDP-Prozesse wird dazu beitragen, Angriffe künftig besser abwehren zu können,…

17 Stunden ago

Proalpha kauft holländischen ERP-Spezialisten

Die Übernahme der Metaal Kennis Groep soll den Zugang zur Metallindustrie verbessern. Im Fokus stehen…

22 Stunden ago

Jobsorgen durch KI: Deutsche eher gelassen

EY hat Mitarbeitende in neun europäischen Ländern dazu befragt, wie stark KI ihren Arbeitsalltag verändert.

2 Tagen ago

DePIN: Ein neues Paradigma für Europas Cloud-Infrastruktur

Kann die Privatwirtschaft mit DePINs – dezentralen, physischen Infrastrukturnetzwerken – erreichen, was Gaia-X bislang vergeblich…

2 Tagen ago

Implementierung und Nutzung entscheidend für MFA-Sicherheit

Analyse zur Anfälligkeit von MFA auf Basis von 15.000 Push-basierten Angriffen. Größte Schwachstelle ist die…

2 Tagen ago