Google hat seine Blogsuche intern komplett umgestellt: Ab sofort bestehen die Suchergebnisse nicht mehr aus den Daten die der Google FeedFetcher einsammelt, sondern stammen direkt aus dem Web-Index. Da viele Blogs in ihren Feeds nur ein Auszug aus dem eigentlichen Posting anzeigen, ist man jetzt dazu übergegangen den kompletten Blog zu scannen und so auch komplette Artikel durchsuchen zu können – mit einigen Nebenwirkungen.
Der Vorteil alle Postings durchsuchen zu können liegt natürlich klar auf der Hand und ist verständlich, allerdings hat man es bisher noch nicht geschafft Postings auch als solche erkennen zu können. Teilweise wird die Blog-Navigation, die Blogroll und weitere Links die mit dem eigentliche Posting nichts zu haben zusammengefasst und durchsucht. Das ist natürlich nicht Sinn der Sache und macht aus der Blog-Suche quasi eine zweite Websuche.
In Zukunft sollen nicht nur die Postings sondern auch die Kommentare dazu durchsucht werden, das lässt sich derzeit wohl nur durch das gesamte scannen einer Seite bewerkstelligen. Ein weiterer Punkt für den Wechsel war auch dass viele Webseiten mehrere Feeds anbieten und in dem gescannten Feed eventuell nicht alle Informationen vorhanden sind. Diesen Punkt lasse ich allerdings nicht gelten – allein der GoogleWatchBlog hat derzeit mehr als 4.300 Feeds, aber der Hauptfeed ist im Header der Seite angegeben und nur dieser beinhaltet den eigentlichen Content. Alle anderen Feeds gehören nicht in eine Blogsuche.
Besser wäre es wenn man auf beide Systeme setzen würde. Erst wird der Feed gescannt, dann die Links darin verfolgt und schon hat man das komplette Posting im Index. Aber Google wird schon seine Gründe haben das ganze intern umzustellen. Nur leider leidet die Aktualität darunter – für den GWB ist gerade mal ein einziger Artikel in den letzten 6 Tagen im Index. Für die größte Blogsuchmaschine ein Armutszeugnis.
Vielleicht wäre es auch gut einen neuen Quasi-Standard zu etablieren. Ein kleiner Tag innerhalb des Quellcodes könnte nicht nur dem Google-Bot helfen. Etwa vor dem Start eines Artikels ein < !- post_begin -> und danach ein < !- post_end -> und das gleiche für Kommentare und eventuell weitere Inhalte. Wäre sicherlich nicht verkehrt und würde die Indizierung stark vereinfachen. Dennoch verstehe ich nicht warum die Feeds aufgegeben worden sind, gerade jetzt wo man mit Feedburner und dem GReader quasi Feeds inklusive Nutzungs-Statistiken auf dem Silbertablett serviert bekommt…