Der GoogleBot scheint sich mit seiner derzeitigen Spiegelung des Internets nicht mehr zufrieden zu geben und möchte jetzt noch sehr viel mehr Seiten in seinen unendlichen Index aufnehmen: Ab sofort wird der Bot bei einigen ausgewählten Testseiten auch Formularfelder ausfüllen und diese Abfragen absenden. Das könnte für einige Webseiten ganz schön nach hinten los gehen…
Der GoogleBot wird folgendermaßen vorgehen:
Er sieht ein Formular-Feld in der Website, sucht sich 2-3 Wörter die innerhalb der Website vorkommen heraus, und gibt diese in das Formularfeld ein. Dann wird die Anfrage abgesendet und die zurückgegebene Seite auf ihre Relevanz hin überprüft bzw. getestet ob sie nur eine Fehlermeldung oder eine weitere Seite zurückgibt. Auf diese Weise dürfte sich Googles Index innerhalb von wenigen Tagen nahezu verhundertfachen.
Allerdings nimmt der Bot auch Rücksicht: Es werden nur FORM-Abfragen gesendet, wenn die Daten per GET – also über die URL – übertragen werden. POST-Daten rührt der Bot (noch) nicht an. Außerdem wird der Bot natürlich keine unendlichen Anfragen stellen die den Server in die Knie zwingen könnten, die 2-3 herausgesuchten Wörter werden verwendet und dann verkrümelt sich der Bot wieder. Beim nächsten Besuch werden dann wahrscheinlich andere Wörter verwendet.
Der PageRank der Webseiten die sich aus diesen Anfragen ergeben beeinflusst übrigens nicht das Ranking der kompletten Seite – wäre ja sonst auch unfair da eine Menge Duplicate Content entstehen würde. Hier im Blog würde der Bot z.B. das Suchformular ausfüllen und würde Artikel geliefert bekommen die eh schon im Index sind. Außerdem wurden Suchanfragen, sofern sie irgendwo verlinkt waren, eh schon seit langer Zeit im Index geführt.
Das Problem für den Webmaster könnte jetzt sein, dass an dieser Stelle Seiten aufgelistet werden die nicht für jedermann zugänglich sein sollten. Da der Bot eine unendliche Geduld hat und sozusagen ständig bei jedem Besuch neue Anfragen ausprobiert, könnte es passieren dass ehemals geschützte Seiten plötzlich offen im Index herumschwirren. Ich denke es gibt nicht wenige Seiten die selbst den Login per GET ausführen…
Was haltet ihr von der Funktion? Ich bin der Meinung dass ein neues HTML-Tag innerhalb von FORM her muss dass den Suchmaschinen das parsen erlaubt oder verbietet. In dem Falle dann gerne auch mit POST.