GoogleWatchBlog

Nach 25 Jahren: Google will robots.txt standardisieren und bietet eigenen robots.txt-Parser zum Download an

» Web-Version «

Das Internet hat sich in den vergangenen zwei Jahrzehnten wahnsinnig verändert und wird auch heute noch immer wieder um neue Technologien und Möglichkeiten erweitert. Ein sehr grundlegender Teil der Crawler-Infrastruktur hingegen hat sich ewig nicht mehr geändert, ist aber dennoch bis heute nicht standardisiert: Die robots.txt. Jetzt will Google die Standardisierung vorantreiben und hat zugleich einen robots.txt-Parser veröffentlicht.


Fast jede Webpräsenz besitzt eine robots.txt-Datei, die für die Nutzer bzw. Besucher der Webseite nicht relevant oder interessant ist, aber von Suchmaschinen bzw. dessen Crawlern beachtet werden sollte. Eine Pflicht zum Beachten gibt es nicht, aber es gehört zum guten Ton und wird auch von allen bekannten Suchmaschinen umgesetzt. Mit der Datei können, das ist der Hauptanwendungsfall, bestimmte Dateien und Ordner für bestimmte Suchmaschinen-Bots ausgeschlossen werden.

Wer hätte das gedacht: Das Format hinter der robots.txt wurde bereits im Jahr 1994 eingeführt, ist aber bis heute nicht standardisiert. Daraus ergibt sich auch, dass es einige Unterschiede in der Umsetzung gibt und es möglicherweise bei den Crawlern zu Missverständnissen kommen könnte. Das möchte Google nun mit zwei neuen Initiativen ändern: Zum einen soll endlich die Standardisierung des Formats und der Umsetzung erreicht werden, wobei auch einige Neuerungen wie das Caching, der Zeichensatz oder die empfohlene Größe festgelegt werden soll.

Um diese möglichen Änderungen gleich global umsetzen zu können, hat man nun außerdem den intern verwendeten Parse als Open Source freigegeben und bietet diesen sowohl zum Download als auch als Test-Tool an. Ein eigenes Web-Angebot mit einer API gibt es nicht, was in dem Fall doch etwas überrascht. Google gibt zu Bedenken, dass Teile des Parsers, der in C++ geschrieben ist, noch aus den 90ern stammen – aber dennoch problemlos funktionieren und auch intern bis heute genutzt werden.

» Google robots.txt Parser
» Ankündigung des Parsers
» Ankündigung der Standardisierung

UPDATE
» Webmaster aufgepasst: Google beachtet nicht mehr alle Regeln der robots.txt – das sind die Alternativen

Siehe auch
» Studie: Google beantwortet jede zweite Suchanfrage selbst & immer weniger Klicks auf die Suchergebnisse

» Der Googlebot wird zum Evergreen: Die Chrome-Engine wird ab sofort regelmäßig aktualisiert


Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren