Categories: CloudCloud-Management

Facebook-Ausfall durch Fehlkonfiguration

Facebook sowie WhatsApp und Instagram waren am Montag, den 4. Oktober, von einem weltweiten Ausfall betroffen, der um ca. 17:44 Uhr MESZ begann und sich bis in den Abend hinzog.

In einem anschließenden Blog-Post erklärte Santosh Janardhan, Vizepräsident für Infrastruktur bei Facebook, dass der Ausfall durch ein technisches Problem verursacht wurde, das das Border Gateway Protocol (BCP) Routing-System betraf, das “einen kaskadenartigen Effekt auf die Art und Weise hatte, wie unsere Rechenzentren kommunizieren, und unsere Dienste zum Stillstand brachte”.

Der Ausfall vom Montag betraf auch interne Tools bei Facebook, die die Diagnose und Behebung des Problems erschwerten, so Janardhan. Wie die New York Times berichtet, wurden durch den Ausfall die Zugangskarten der Techniker unbrauchbar, so dass die Mitarbeiter nicht in die Gebäude gelangen konnten, in denen die betroffenen Server untergebracht waren.

“Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben”, so Janardhan.

“Unsere Dienste sind jetzt wieder online und wir arbeiten aktiv daran, sie vollständig in den regulären Betrieb zurückzuführen. Wir möchten an dieser Stelle klarstellen, dass wir glauben, dass die Hauptursache für diesen Ausfall eine fehlerhafte Konfigurationsänderung war.”

BGP wurde ursprünglich entwickelt, um Internetdienstanbieter auf der ganzen Welt miteinander zu verbinden. Heute bildet es das Routing-Backbone des Internets.

Auch Facebook nutzt BGP als Grundlage für sein Routing-Design im Rechenzentrum. In einem im Mai 2021 veröffentlichten Blog-Beitrag erklärten Facebook-Forscher, das Routing-Design solle es dem Unternehmen ermöglichen, “unser Netzwerk schnell aufzubauen und eine hohe Verfügbarkeit unserer Dienste zu gewährleisten, während das Design selbst skalierbar bleibt.”

Die Forscher stellen jedoch auch fest, dass BGP “eine enge Abstimmung mit der Topologie des Rechenzentrums, der Konfiguration, der Switch-Software und der rechenzentrumsweiten Betriebspipeline erfordert.” Ironischerweise wurde die Routing-Konfiguration des Rechenzentrums von Facebook speziell dafür entwickelt, die Auswirkungen von Ausfällen zu minimieren. Laut Facebook wurden durch den Ausfall am Montag keine Nutzerdaten in Mitleidenschaft gezogen.

Redaktion

Recent Posts

Gigabit-Datenraten im Zug

Projekt aus Bahn-, Mobilfunk- und Funkmastbranche zieht Zwischenbilanz. Start von Praxistests in erstem 5G-Korridor an…

9 Stunden ago

E-Health: Langzeitpflege mit KI

Das Fraunhofer-Institut entwickelt eine Pflegeplanung, die mit Künstlicher Intelligenz arbeiten wird. Ziel ist es, Pflegekräfte…

10 Stunden ago

Malware Mai 2024: Androxgh0st-Botnet breitet sich weiter aus

Die Lockbit3 Ransomware-Gruppe ist mittlerweile für ein Drittel der veröffentlichten Ransomware-Angriffe verantwortlich / Details zum…

15 Stunden ago

Vernetztes Fahren: Jeder zweite befürchtet Sicherheitsdefizite

Laut Kaspersky haben 52 Prozent der IT-Entscheider im Automobilbau ernsthafte Bedenken, dass vernetzte Fahrzeuge ausreichend…

16 Stunden ago

Unternehmen unterschätzen Komplexität der Digitalisierung

Studie: Projekte zur digitalen Transformation sind meist komplexer und zeitaufwändiger als erwartet.

18 Stunden ago

KI-basierte Übersetzung von Produktinformationen

Durch Anbindung des PIM-Systems an die KI-basierte Übersetzungslösung DeepL spart die J. Schmalz jährlich rund…

2 Tagen ago