Websuche: Wie Google funktioniert
Googles Suchbox sieht von Natur aus unscheinbar aus. Wir geben den Suchstring ein, warten 1 Sekunde und bekommen eine Liste mit Ergebnissen präsentiert – alles ganz easy, kann jeder. So denken wohl 99% der (DAU?)-User – aber wie läuft so eine Google-Suche wirklich ab? Was passiert im Hintergrund und wieviele tausend Server setzt der kleine „Google Search“-Button in Bewegung?
Portfolio.com hat sich einmal die Mühe gemacht das ganze in 10 Schritten zu ordnen und diese ausführlich zu erklären. Ich habe das ganze für euch hier auf deutsch übersetzt:
1. Die Suchanfrage
Alles beginnt mit der Eingabe einer mehr oder weniger sinnvollen Suchanfrage.
2. Die Suche nach dem Cluster
Die Software im Hintergrund wählt automatisch den Cluster aus welcher die Suche durchführen wird. Die Auswahl basiert unter anderem auf der geographischen Nähe zum User und auf der aktuellen Auslastung.
3. Der Cluster
Die Suchanfrage wird an den Cluster gesendet und dort weiter verarbeitet
4. Die Web-Server
Die Such-Software gibt einigen Hundert bis Tausend Rechnern jetzt die Aufgabe nach der Anfrage zu suchen – mit Teamarbeit kommt man schneller ans Ziel 😉
5. Index Server
Die einzelnen Rechner durchsuchen jetzt den Index-Server nach passenden Dokumenten zum Suchbegriff. Beliebte Suchanfragen werden für einige Stunden zwischengespeichert um sie nicht jedes mal neu ausführen zu müssen.
6. Document Server
Sind die nötigen Dokumente dann gefunden, werden der Titel, der Textauszug und einige weitere Daten aus dem jeweiligen Suchergebnis vom Dokument-Server geladen. Dieser enthält die eigentlichen Daten und eine komplette Kopie des öffentlich zugänglichen Internets.
7. Rechtschreibkorrektur
Nachdem die Suchergebnisse zusammengestellt sind, wird noch einmal eine Qualitätskontrolle durchgeführt. Hat sich der User vielleicht vertippt? Gibt es mehr Ergebnisse wenn die beiden Worte zusammengeschrieben werden? Für solche Aufgaben wird die Suchanfrage noch einmal durch den „Spelling Server“ gejagt. Dieser gibt dann eventuell einen besseren Suchvorschlag zurück der dann oberhalb der Suchergebnisse präsentiert wird.
8. AdWords-Server
Damit die ganze Mühe und Arbeit der Server nicht umsonst war, müssen die Suchergebnisse noch monetarisiert werden. Die Suchanfrage wird noch ein drittes mal über die Server gejagt, diesmal auf der Suche nach passenden AdWords-Anzeigen.
9. Page Builder
All diese Informationen werden vom Page Builder jetzt noch schon säuberlich in eine HTML-Datei verpackt und können endlich an den Browser zurück geschickt werden – im bekannten Google-Design.
10. Voila
Und all das passiert in weniger als einer halben Sekunde…
» Portfolio.com: How Google Works
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter
ein sehr langer Weg, der in einem Bruchteil einer Sekunde geschieht.
sehr interessant, diese details. bitte mehr davon. und: danke für die tollen täglichen infos.
Ich frage mich jetzt noch: Gibt es nur einen Index-Server auf dem 100-1000 Rechner suchen? Das würde ja dann nicht wirklich Geschwindigkeitsvorteile bringen. Und wenn es mehrere gibt, wie groß (RAM) sind die dann bitte? Das öffentlich zugängliche Internet ist ja nicht gerade klein.
Danke Holger, einmal reicht eigentlich…
(4 Posts mit identischem Inhalt gelöscht!)
Ich bin mir eignetlich relativ sicher, dass Google den Cluster nicht nach der „geographischen Nähe“ sondern nach netztopologischer Nähe geographischen Nähe auswählt.
„netzopologischer Nähe geographischen Nähe“ ? Mag ja sein, aber 1. würde die Erklärung für viele nicht mehr verständlich sein und 2. wenn Du schon korrigieren möchtest, denn bitte keine solch schweren grammatikalischen Fehler 😉
Das erklärt auch wie der hohe Stromverbrauch pro Suchanfrage zustandekommt – sehr interessante Auflistung!