Router-Update legt Microsofts Online-Dienste lahm

Eigentlich sollte nur eine IP-Adresse geändert werden. Ein dazu benutzter Befehl legt über einen Router Teile von Microsofts Wide Area Network lahm. Auch Systeme zur automatischen Fehlerbehebung sind betroffen.

Microsoft hat sich zu den Hintergründen der mehrstündigen Ausfälle von Teams, Exchange Online, Outlook und weiteren Diensten in der vergangenen Woche geäußert. Demnach führte ein Router-Update dazu, dass Azure, Microsoft 365 und die Power-Plattform für viele Kunden vorübergehend nicht zugänglich waren.

Vor Beginn der Störungen hatte Microsoft seine Kunden darauf hingewiesen, dass ein geplantes Update zu höheren Latenzen bei Zugriffen auf Azure, Microsoft 365 und Power BI führen können. Mit Beginn des Arbeitstages in Europa zeigte sich dann jedoch, dass das Update das Microsoft Wide Area Network (WAN) störte und es zu Verbindungsabbrüchen zwischen einzelnen Diensten in Microsofts Rechenzentren kam.

Alles beginnt mit einer neuen IP-Adresse

“Wir haben festgestellt, dass eine Änderung am Microsoft Wide Area Network (WAN) die Konnektivität zwischen Clients im Internet und Azure, die Konnektivität zwischen Regionen sowie die standortübergreifende Konnektivität über ExpressRoute beeinträchtigt hat”, teilte Microsoft nun mit. “Im Rahmen einer geplanten Änderung zur Aktualisierung der IP-Adresse auf einem WAN-Router veranlasste ein an den Router gegebener Befehl diesen, Nachrichten an alle anderen Router im WAN zu senden, was dazu führte, dass alle Router ihre Weiterleitungstabellen neu berechneten. Während dieser Neuberechnung waren die Router nicht in der Lage, die sie durchquerenden Pakete korrekt weiterzuleiten. Der Befehl, der das Problem verursachte, verhält sich auf verschiedenen Netzwerkgeräten unterschiedlich, und der Befehl war auf dem Router, auf dem er ausgeführt wurde, nicht mit unserem vollständigen Qualifizierungsprozess überprüft worden.”

Laut Microsoft hatte die Änderung auch Auswirkungen auch die Systeme, die automatisch die Funktion des WAN steuern und nicht regulär arbeitende Geräte im WAN identifiziert und entfernt. Auch das System zur Optimierung von Datenflüssen im Netzwerk sei betroffen gewesen. Das habe zu weiteren Paketverlusten geführt und einen manuellen Neustart der Systeme erforderlich gemacht.

Um ähnliche Vorfälle zu verhindern, blockiert Microsoft nun “die Ausführung von Befehlen mit großen Auswirkungen auf Geräte”. Außerdem müssten nun bei der Ausführung von Befehlen auf Netzwerkgeräten die Richtlinien für sichere Änderungen befolgt werden.