Malware Warning: Googles aufwendiges Prüfungsverfahren
Seit über einem Jahr warnt Google seine User jetzt vor dem Besucher „gefährlicher“ Webseiten und konnte zumindest deren Suchmaschinentraffic dadurch stark eindämmen. Anfangs hatte Google die dazu benötigten Daten noch von Dritten eingekauft, mittlerweile durchsucht Google das Internet auch selbst nach solchen Webseiten. Und das mit einer gewaltigen Rechner-Power und einem sehr aufwendigen Verfahren…
Um eine Seite die Malware oder ähnliche Schadsoftware verbreitet zu finden, setzt Google natürlich wieder Algorithmen ein – allerdings sind diese in diesem Fall mit gewaltigem Aufwand verbunden:
» Google-Rechner bootet frisches Windows-Image
» 1 einzige URL (!) wird aufgerufen
» PC wird 2 Minuten lang überwacht (Installationen, Registry, Autostart,…)
» Passiert nichts ist die Seite clean, passiert etwas gibt es Malware Warning
» Danach wird das Image runtergefahren, gelöscht, und ein neues Image gebootet
Google startet also Quasi für jede einzelne URL (Was beim GWB allein schon über 42.000 Seiten ausmacht [ohne Suchseiten]) ein neues Betriebssystem. Das mag sehr aufwendig klingen, ist aber die einzige Möglichkeit wirklich 100%ig sicher zu gehen ob eine Seite sicher ist oder nicht.
Smoking Gun hat dafür ein interessantes Rechenbeispiel durchgeführt:
Pro Tag überprüft Google auf diesem Weg ca. 1 Million URLs. Pro URL müssen 2 Minuten Zeit eingerechnet werden (Ohne Bootvorgang), das macht ein Ergebnis von 722 URLs pro PC und Tag. Google bräuchte also nicht weniger als 1389 PCs die den ganzen Tag nur Rauf- und Runter-Booten und eine URL aufrufen. Ist schon beachtlich 😉
Laut Google enthalten übrigens 1% aller Suchergebnisse Links zu Schadsoftware, laut der neuesten hier angeführten Statistik sind es sogar traurige 2,5%…
[Smoking Gun, thx to: Tom]
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter
Na sicher wäre es schon. Ich denke aber auch an eine VMWare-Lösung. Auf jedenfall zeigt es wieder, was Google für eine Rechenpower besitzt und nutzt. 😉
eher das hier:
http://code.google.com/p/ganeti/
Das mit den 13xx Rechner ist mehr als unwahrscheinlich. Es wird sicher auf einem „Textrechner“ nicht nur eine Instanze laufen. Warum sollte der Rechner zwei Minuten warten und nichts tun?
Ich bin mir nicht sicher, wie viele Instanzen man auf Standardhardware laufen lassen kann. Es werden aber sicher weit mehr als 10 gleichzeitig sein.
Das ganze finde ich jetzt nicht soo besonders, wenn man überlegt was Google mit der Suche leistet.
Aber Google veröffentlicht ja z.B. keine Linpack-Werte.
Jupp, das denke ich auch. Ich kann mir auf vorstellen das es noch weit aus mehr Instanzen gleichzeitig laufen. Denn wirklich viel Rechenpower benötigen die einzelnen Instanzen ja nicht.
Gruß
Tino
Nettes Rechenbeispiel – wobei ich mir nicht so recht vorstellen kann, dass der Prozess wirklich auf diese Weise abgewickelt wird. Denke eher, dass die eher mit „Sandboxen“ arbeiten (jaja in gewisser Hinsicht auch eine VMWare-Lösung):
http://blog.tim-bormann.de/software-virtualisierung.html
Das ganze finde ich jetzt nicht soo besonders, wenn man überlegt was Google mit der Suche leistet.
Aber natürlich hat Google für jede URL die gecheckt wird einen eigenen PC da stehen… so braucht ein Check aller Adressen nur ca 2 Minuten + Bootzeit 😉
Von der Technik abgesehen eine interessante Serviceleistung, die gegen moderates Endgeld sicher gut verkaufbar wäre. Man zahlt x Euro/Monat, dafür checkt google regelmäßig meine Website nach Malware. Als goodie vermerkt google bei Suchanfragen, die meine Website auflisten, mit einem „google-approved“ den Sicherheitsstatus meiner Website.