Transparency Report: Google löscht auch URLs, die sich niemals im Index befunden haben
Tag für Tag bekommt Google Millionen von Löschanträgen und hat im vergangenen Jahr die Grenze von mehr als einer Milliarde gelöschten URLs durchbrochen. Wie ein bei Google angestellter Anwalt nun bekannt gegeben hat, werden aber nicht nur URLs aus dem Index gelöscht, sondern es befinden sich auch sehr viele URLs auf einer Blockliste, die es bisher noch gar nicht in den Index geschafft haben. Und das hat auch einen ganz praktischen Grund.
Im Transparency Report berichtet Google sehr umfangreich über alle Anfragen, die das Unternehmen von Agenturen und Behörden bekommt. Dort sind nicht nur Informationen zur Herausgabe von Nutzerdaten zu finden, sondern auch Statistiken rund um Löschanträge, gelöschte Webseiten und mehr aufgelistet. Tatsächlich löscht Google aber nicht nur URLs aus dem Index, sondern blockiert auch in großem Umfang die Aufnahme von neuen.
Googles Urheberrechtsanwalt Caleb Donaldson hat nun verkündet, dass man nicht nur URLs aus dem Index löscht, sondern auch eine Blacklist mit URLs betreibt, die noch gar nicht im Index zu finden sind. Tatsächlich findet sich ein Großteil der an Google gemeldeten URLs gar nicht oder noch nicht im Index. Sollten die URLs dem Crawler dann doch einmal über den Weg laufen, dann werden sie automatisch blockiert und finden gar nicht erst den Weg in den Index. Da URLs häufig einem bestimmten Thema folgen, kann es sinnvoll sein, diese für neue Filme / Musik / Software schon vorsorglich zu blockieren.
Wir akzeptieren Benachrichtigungen für URLs, die nicht einmal in unserem Index stehen. So können wir sogar Informationen über Seiten und Domains sammeln, die wir noch nicht im Crawler haben. Wir verarbeiten diese URLs wie die anderen auch.
Wie hoch der Anteil dieser gemeldeten URLs ist, hat Donaldson leider nicht bekannt gegeben, aber im vergangenen Jahr stand einmal die Zahl von 99,95 Prozent aller gemeldete URLs im Raum – die niemals im Index waren.
Gleichzeitig hat Donaldson noch einige Statistiken bekannt gegeben: Zwar werden täglich über 3 Millionen URLs gelöscht, aber dafür kommen auch Tag für Tag gut 20 Milliarden neue dazu. Insgesamt befinden sich derzeit gut 130 Billionen URLs in Googles Index.
[golem]
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter