Während in der letzten Zeit vorallem die Cloud-Angebote von amazon (AWS) durch großflächige Ausfälle Schlagzeilen machten, hat es am Freitag jetzt auch einmal Googles App Engine getroffen. Laut eigenen Angaben waren mehr als 50% der gehosteten Angebote und Daten kurzfristig nicht verfügbar.
Für mindestens 4 Stunden war ein Großteil der App Engine nicht erreichbar, es sind laut Google aber keine Daten verloren gegangen und die Server wurden ohne Eingreifen der darauf liegenden Kunden problemlos wieder hochgefahren. Googles eigene Infrastruktur und Angebote waren von dem Ausfall nicht betroffen.
Dominoeffekt
Der Ausfall begann durch plötzlichen Anstieg des Traffics auf einem Router eines Rechenzentrums, wodurch dieser und weitere Router überlastet wurden. Als Reaktion darauf lösten die Google-Techniker einen Neustart der Router aus, wodurch natürlich kurzzeitig noch mehr Last auf die anderen Router verteilt wurde. Das brachte die restlichen Router dann ebenfalls an ihre Grenzen und die Latenzzeiten stiegen über die Grenzwerte.
Den Googlern blieb daher nur die Möglichkeit den kompletten Dienst, bzw. 50% davon, herunterzufahren und komplett neu zu starten. Das dauerte dann ungefähr 40 Minuten, danach war das Angebot wieder vollständig erreichbar.
Google verspricht nach dem Ausfall weitere Verbesserung der Ausfallsicherungen und verweist auf die lange Phase seit Januar 2011 ohne größeren Ausfall. Betroffene Kunden bekommen für den Monat Oktober 10% ihrer bereits gezahlten Gebühren als Entschädigung zurückgezahlt.