Das Internet hat sich in den vergangenen zwei Jahrzehnten wahnsinnig verändert und wird auch heute noch immer wieder um neue Technologien und Möglichkeiten erweitert. Ein sehr grundlegender Teil der Crawler-Infrastruktur hingegen hat sich ewig nicht mehr geändert, ist aber dennoch bis heute nicht standardisiert: Die robots.txt. Jetzt will Google die Standardisierung vorantreiben und hat zugleich einen robots.txt-Parser veröffentlicht.
Fast jede Webpräsenz besitzt eine robots.txt-Datei, die für die Nutzer bzw. Besucher der Webseite nicht relevant oder interessant ist, aber von Suchmaschinen bzw. dessen Crawlern beachtet werden sollte. Eine Pflicht zum Beachten gibt es nicht, aber es gehört zum guten Ton und wird auch von allen bekannten Suchmaschinen umgesetzt. Mit der Datei können, das ist der Hauptanwendungsfall, bestimmte Dateien und Ordner für bestimmte Suchmaschinen-Bots ausgeschlossen werden.
Wer hätte das gedacht: Das Format hinter der robots.txt wurde bereits im Jahr 1994 eingeführt, ist aber bis heute nicht standardisiert. Daraus ergibt sich auch, dass es einige Unterschiede in der Umsetzung gibt und es möglicherweise bei den Crawlern zu Missverständnissen kommen könnte. Das möchte Google nun mit zwei neuen Initiativen ändern: Zum einen soll endlich die Standardisierung des Formats und der Umsetzung erreicht werden, wobei auch einige Neuerungen wie das Caching, der Zeichensatz oder die empfohlene Größe festgelegt werden soll.
Um diese möglichen Änderungen gleich global umsetzen zu können, hat man nun außerdem den intern verwendeten Parse als Open Source freigegeben und bietet diesen sowohl zum Download als auch als Test-Tool an. Ein eigenes Web-Angebot mit einer API gibt es nicht, was in dem Fall doch etwas überrascht. Google gibt zu Bedenken, dass Teile des Parsers, der in C++ geschrieben ist, noch aus den 90ern stammen – aber dennoch problemlos funktionieren und auch intern bis heute genutzt werden.
» Google robots.txt Parser
» Ankündigung des Parsers
» Ankündigung der Standardisierung
Siehe auch
» Studie: Google beantwortet jede zweite Suchanfrage selbst & immer weniger Klicks auf die Suchergebnisse
» Der Googlebot wird zum Evergreen: Die Chrome-Engine wird ab sofort regelmäßig aktualisiert