Google Der Leiter von Google Research, Peter Norvig, hat auf der "Emerging Technology"-Konferenz in San Diego einen Einblick in Googles Such- und Übersetzungstechnologie gegeben. Aus diesem ergibt sich, dass das Unternehmen nicht nur auf komplizierte Modelle und Theorien setzt, sondern vor allem auch auf eine sehr große Menge an Daten. Bei der Übersetzung von Chinesisch-Englisch erklärt sich das am besten: Im Chinesischem bilden mehrere Schriftzeichen ein Wort, aber ein Schriftzeichen bedeutet gleichzeitig auch ein anderes bzw. eine andere Silbe. Um halbwegs sinnvolle Chinesisch-Englisch Übersetzungen zu liefern, werde bei der Übersetzung Vergleichsdaten - Wahrscheinlichkeitstabellen - untersucht. Dann wird bei der Übersetzung eines Textes mit diesen Tabellen verglichen. Sehr ähnlich ist es bei der Bildersuche. Bisher wurden nur die Metadaten eines Fotos verwendet. Das ergab eine hoche Fehlerquote. In Zukunft will man die ersten 1 000 Bilder der Ergebnisse vergleichen und dann Ähnlichkeiten feststellen. Haben zwei Bilder viele Punkte gemeinsam werde sie als ähnlich und damit relevant eingestuft. Laut Norvig ist die Datenmenge das Problem der Start-ups. Google habe durch große Serverfarmen genügend Speicher um solche Tabellen anzulegen. [Winfuture]
Research Laut einer aktuellen Studie von Google Research nimmt die Verbreitung von Würmern, Trojanern und ähnlicher Schadsoftware über das Internet immer mehr zu - und das nur wegen längst bekannter Sicherheitslücken. Millionen von Webseiten und eMail-Servern tragen unwissentlich zur Verbreitung solcher Software oder Spam-Mails bei ohne es zu wissen. Das schlägt sich natürlich auch auf Googles Suchergebnisse nieder: In jeder hundertsten Websuche findet sich mindestens ein Link zu einer solchen Seite wieder. Besonders chinesische Webmaster machen sich nicht all zu viele Gedanken um ihre Sicherheitssysteme und betreiben somit ein Paradies für solche Schadsoftware. 67% aller Schadsoftware wird in China gehostet und wird zu 64% über chinesische Seiten vertrieben. Auf Platz 2 folgt die USA mit je 15% in beiden Bereichen. Deutschland hält sich mit 1% Hosting und 2% Verbreitung aber auch in den Top10. Mehr als 38% aller infizierten Server nutzen veraltetete Software von Apache bzw. eine alte PHP-Version mit Sicherheitslücken. Durch ein einfaches Updates könnte das ganze unterbunden werden - aber anscheinend interessieren solche Studien niemanden. Viele Webseiten verbreiten Schadsoftware oder zumindest Links dazu unwissentlich durch von Hackern eingebaute iFrames die niemandem einfallen. Das liegt teils an unsicherer Software, teils an 123abc-Passwörtern und teilweise natürlich auch an Webseiten die jeden HTML-Code ungeprüft von ihren Usern annehmen und veröffentlichen. Mittlerweile finden sich bei 1% aller Suchergebnisseiten mindestens ein Link zu einer Seite die Schadsoftware verbreitet oder zumindest verlinkt. Der Trend ist leider sehr stark ansteigend, in den letzten 10 Monaten hat sich diese Zahl verdreifacht. Google kann gegen die eigentliche Verbreitung nicht viel tun, ist aber immerhin darum bemüht Links zu solchen Seiten entweder nicht im Index zu führen oder den Besucher vor dem aufrufen der Seite zu warnen. Wenn aber immer mehr Seiten zur Verbreitung beitragen muss bald vor dem Besuch des halben Webs gewarnt werden... Grund genug für alle Chinesen endlich ihre Software upzudaten ;-) » Studie von Google [PDF] [heise]
Research Zur Zeit besteht die Seite Google Research nur aus einer Reihe von Informationen rund um Googles Forschungsabteilung und dessen Ergebnisse bzw. Publikationen. Aber natürlich betreiben auch viele andere Unternehmen, Universitäten und freie Wissenschaftler Forschung - ohne dass die große Masse darauf Zugriff hat. Das möchte Google jetzt ändern und wird in den nächsten Tagen eine eigene, offene, Forscher-Datenbank aufbauen. Laut Informationen von internen Google-Quellen wird das neue Portal direkt unter der Adresse research.google.com erreichbar sein und jedem Wissenschaftler und Forscher die Möglichkeit geben seine Ergebnisse zu veröffentlichen. Die dort eingestellten Daten können dann von der ganzen Welt durchsucht, angesehen und auch ausgewertet werden. Für die Auswertung steht der Trendalyzer, den Google vor knapp 1 Jahr übernommen hat, bereit. Für die ansprechende Präsentation der eingestellten Daten ist also schon einmal gesorgt. Der Speicherplatz zur Veröffentlichung der eigenen Forschungsdaten soll übrigens unbegrenzt zur Verfügung stehen. Von einem wenige-KB-Textdokument über Gigabyte-Videos bis hin zu Fotoserien und Datenströmen die die TB-Grenze durchbrechen soll alles möglich sein. Erstere wird man noch über ein Web-Interface hochladen können, aber um einige TB an Daten auf die Plattform zu bringen hat Google eine eher herkömmliche Methode: Wer eine große Datenmenge in das Portal laden möchte, muss sich bei Google registrieren und bekommt dann einen kleinen Festplatten-Tower mit einer Speicherkapazität von 3 TB zugeschickt. Auf dieses Speichermedium kann der Wissenschaftler dann seine Daten kopieren und an Google zurück zu senden - Google sorgt dann dafür dass die Daten innerhalb kürzester Zeit öffentlich verfügbar sind. Die dazugehörige Technik ist ebenfalls, wie der Trendalyzer, seit März 2007 vorhanden. Der Starttermin für dieses Projekt lag in der letzten Woche, Google Research ist also längst überfällig und kann jeder Zeit an den Start gehen. Zum Start soll Google das Portal auch selbst schon mit interessanten Daten gefüttert haben - so soll etwa alleine vom Hubble-Teleskop Bildmaterial mit einer Größe von 120 TB (!) zur Verfügung stehen. Ich denke das Portal könnte, insbesondere in Verbindung mit dem Trendalyzer, ein schönes Spielzeug werden und die Hobby-Forschung fördern ;-) P.S. Bisher handelt es sich, wie bei Google üblich, nur um ein Gerücht - aber ich halte es für sehr realistisch. Hier noch eine Präsentation zu Google Research vom Mai 2007: » Artikel bei Wired » Artikel bei Pimm [thx to: Richard]
Google Egal wieviele Features und Redesigns Google, Yahoo!, Live & co. ihren Suchmaschinen zuführen, im Grunde ist es immer dasselbe: Ein Suchschlitz, ein Button und die Anfrage wird in Stichwörtern eingegeben. Das war vor 10 Jahren so, ist heute so und wird auch in 10 Jahren noch so sein - zumindest prognostiziert dass Peter Norvig, Forschungsdirektor bei Google.
Wir glauben, dass es wichtiger ist, die richtigen Ergebnisse auszugeben, nicht die Schnittstelle zu verändern. Wir haben das vorher immer dem Nutzer aufgebürdet, ob er nun im Web, nach Bildern oder Videos suchen will. Nun versuchen wir, das für ihn zu lösen und die Ergebnisse zu präsentieren, die sinnvoll sind
In den letzten Jahren war immer wieder die Rede von in Entwicklung befindlichen Techniken die es ermöglichen sollten mit Suchmaschinen zu kommunizieren bzw. dass eine Frage in natürlicher Sprache eingegeben werden kann und von der Suchmaschine beantwortet wird. Wirklich viel hat man davon aber noch nicht gesehen, und die die es versucht haben haben kläglich versagt. Scheinbar hat auch Google diese vermeintliche Zukunftstechnik jetzt aufgegeben - oder warum äußert sich Peter so kritisch darüber? Norvig ist der Meinung dass die eigentliche Anfrage-Technik gegenwärtig perfekt ist und nicht weiter verbessert werden kann - die Hersteller sollten sich lieber auf die Verbesserung der Suchergebnisse konzentrieren. Als Forschungschef ist Peter Norvig natürlich sehr gut über Googles zukünftige Pläne informiert und dürfte mit seiner Prognose die grobe Richtung für Googles Suchmaschine in den nächsten Jahren vorgegeben haben: Mehr Konzentration auf Universal Search und eine eventuelle Design-Änderung der Suchergebnisse - Suchanfragen in natürlicher Sprache dürfen wir wohl eher nicht erwarten. » Interview bei Technology Review
Peter Norvig Peter Norvig, gab ein Interview bei technology review. Als Chef von Google Research ist er direkt mit der Umsetzung der Unternehmensmission, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen, beschäftigt. Als Experte für Künstliche Intelligenz verbrachte er bereits vor seiner Zeit bei Google den Großteil seiner Zeit mit diesem Thema, lehrte an Universitäten, forschte in Unternehmen und bei der NASA und schrieb das einflußreiche Buch "Künstliche Intelligenz: ein moderner Ansatz". Norvig kam 2001 als Direktor für die Suchqualität zu Google und erreichte seine derzeitige Postion vier Jahre später. In dieser Rolle leitet er 100 Informatiker bei ihrer Arbeit an den unterschiedlichsten Projekten von der Verwaltung medizinischer Daten bis hin zu maschineller Übersetzung von Sprachen. Eine unzählige Menge von Servern, die das durchsuchbare Internet zwischenspeichern biten den Enwtwicklern eine Spielwiese als Testplattform und Datenquelle für die ausgeklügelten Algorithmen. Er sagt Google ist so strukturiert, dass die Forscher nicht vom Rest der Firma isoliert sind. "Sie können sich voll auf das Produkt konzentrieren, an dem sie arbeiten" Als Norvig in Mountain View ankam war die Suche im Internet nichts weiter als die Seiten, die am besten zu einer Anfrage passten. Doch das Internet ist gewachsen und die Benutzer wollen schnell gefilterte Informationen. Im Interview erklärt er was in der Suche als nächstes kommen wird. hier die Übersetzung: Technology Review: Google hat viele innovative Produkte, aber die Art und Weise der Google Suche hat sich in den letzten 10 Jahren kaum geändert. Warum? Peter Norvig: Wir haben mit der Google Suche genau das, was der Nutzer möchte. Und wir waren nicht die ersten, denken Sie an Excite und den Suchmaschinen davor. Sie haben ein Eingabefeld und erhalten eine Liste mit 10 Ergebnissen, ein paar kurze Informationen dazu, fertig. Diese Simplizität ist uns Erfolg. Technology Review: Was hat sich in den Jahren generell geändert? Peter Norvig: Das Ausmaß, es gibt wahrscheinlich tausend Mal mehr Informationen wie zu unseren Anfängen. Damals bestand das WWW fast nur aus Webseiten, heute sind es Videos, Bilder, Blogs und zahlreiche andere Arten von Medien und Formaten. Auch die Erwartung unser Nutzer hat sich geändert. Als ich angefangen habe, haben wir den Index nur einmal im Monat aktualisiert. Wir dachten damals eher an eine Art Bibliothek, eine langfristige Sache. Jetzt begreifen wir unsere Suche eher als Momentaufnahme. Unsere Nutzer möchten aktuelle Nachrichten schon nach wenigen Minuten abrufen können, nicht erst nach Tagen oder Wochen. Technology Review: Sie behaupten, die Qualität der Suchergebnisse von Google ist sehr gut. Woher nehmen Sie diese Erkenntnisse und was machen Sie, um die Ergebnisse noch besser zu machen? Peter Norvig: Wir testen es in vielfältiger Form. Zum einen verfolgen wir auf was die Suchenden klicken. Wenn Sie auf die Webseite auf Position 1 klicken und danach nicht weiter suchen, bedeutet dieses wahrscheinlich, dass sie gefunden haben was sie wollten. Wenn unsere Nutzer nach unten scrollen, weiterblättern oder die Suchanfrage neu formulieren, entsprechen die Ergebnisse nicht ihren Erwartungen. Darüber hinaus engagieren wir Menschen, die uns für definierte Suchanfragen die Ergebnisse bewerten. Es sind verschiedene Firmen, welche wir beauftragen. Wir schulen diese, damit sie Spamseiten und andere schlechte Ergebnisse erkennen können. Diese Ergebnisse lassen wir dann als eine Art `Qualitätssiegel´ mit in unsere Bewertung einfließen, was uns natürlich nicht bei allen Seiten möglich ist. Auch führen wir Versuche durch, beobachten z.B. Nutzer bei uns oder zuhause, analysieren wie und was sie genau suchen. Technology Review: Unternehmen wie Ask und Powerset prophezeien, dass die Suche immer sprachorientierter wird und Menschen zukünftig eher mit ganzen Sätzen als mit nur einigen Keywords suchen werden. Wie geht Google damit um? Peter Norvig: Uns ist es wichtig, zunächst einmal daran zu arbeiten, dass jedes einzelne Wort genau die Ergebnisse liefert, die sich der Nutzer wünscht. Wir glauben nicht wirklich, dass es ein großer Fortschritt ist, einen Satz in eine Suchmaschine eingeben zu können. Wenn Sie beispielsweise die Frage `Was ist die Hauptstadt von Frankreich?´ eingeben, werden Sie keine besseren Ergebnisse erhalten wie bei der Eingabe `Hauptstadt Frankreich´. Einzelne Begriffe richtig zuordnen zu können ist viel wichtiger. `New York´ ist z.B. anders als `York´, `Vegas´ aber im Prinzip das Gleiche wie `Las Vegas´ und `Jersey´ kann, muss aber nicht das Gleiche sein wie `New Jersey.´ Das ist der Schwerpunkt unserer Arbeit. Wir arbeiten fokusiert an der richtigen Zuordnung von Begriffen bzw. Phrasen, nicht an der von ganzen Sätzen. Wir sind der Meinung, es ist in erster Linie wichtig, die Qualität der Ergebnisse zu verbessern, nicht die Eingabemethoden. Technology Review: Inwieweit wird sich die personalisierte Suche durchsetzen? Peter Norvig: Wie versuchen diese auf unterschiedliche Art und Weise zu integrieren. Ein gutes Beispiel ist die Zuordnung von ortsspezifischen Nachrichten. Hier funktioniert die Zuordnung sehr gut. Außerdem speichern wir die Suchen der einzelnen Nutzer und vergleichen sie miteinander. Wir sind auf einem guten Weg, die personalisierte Suche auf das gesamte Web zu übertragen ist jedoch nicht leicht. Technology Review: Wo sehen Sie die Google Suche in 2 bis 5 Jahren? Peter Norvig: Man wird überall auf der Welt zu jeder Zeit nach vielen verschiedenen Inhalten suchen können. Wir arbeiten natürlich weiter an sprachbasierten Neuerungen oder der Verknüpfung mit dem Handy. Wir möchten unseren Nutzern zu viel Arbeit abnehmen wie nur möglich. Er soll nicht länger entscheiden müssen, ob er nun nach Texten, Bildern oder z.B. Videos suchen möchte. Deswegen arbeiten wir schon jetzt daran, die große Vielfalt der Medien den Bedürfnissen unserer Nutzer entsprechend zu ordnen und zu selektieren. [technologyreview, TechCrunch, Übersetzung einiger Ansätze von SEO United]
Peter Norvig
Das Heise-Magazin Technology Review hat ein Interview mit dem Googler Peter Norvig, Chef der Forschungsabteilung, über vergangene Erfolge, aktuelle Forschungsarbeiten und zukünftige Herausforderungen geführt. Dabei ließ Peter unter anderem durchblicken dass Google Video demnächst auch den eigentlichen Inhalt eines Videos durchsuchen wird. Laut Peter hängen die beiden größten Forschungsbereiche bei Google Research mit dem Thema Sprache zusammen. Das erste Projekt beschäftigt sich mit Spracherkennung und das zweite mit der Analyse der gesprochenen Sätze und deren automatisierte Übersetzung in eine andere Sprache. Zu beiden Themen hat Peter eine Menge zu erzählen: Videosuchmaschine & Spracherkennung
Wir wollten eine Sprachtechnologie, die als Interface für Telefone und auch zur Indizierung von Audiotext verwendet werden kann. Nach der Betrachtung existierender Ansätze entschieden wir uns, etwas Eigenes zu entwickeln. Wir denken, dass wir mit den Daten und Rechenkapazitäten, die uns zur Verfügung stehen, das Feld nach vorne bringen können.
Auch wenn man es bisher - GOOG-411 mal ausgenommen - nicht bemerkt hat, so hat Google doch auf dem Gebiet der Spracherkennung jede Menge KnowHow gesammelt und kann sich damit rühmen eine der besten Spracherkennungssoftwares zu besitzen. Diese Software soll aber nicht nur für die Websuche eingesetzt werden sondern auch für die Video-Suche, bzw. für die Suche IN den Videos. Bisher kann Google bzw. YouTube nur aus der Beschreibung, dem Titel, den Tags und eventuell noch den Kommentaren und Verlinkungen Schlüsse ziehen worum es sich bei diesem Video handelt - aber das soll sich mit der Spracherkennung bald ändern. Mithilfe dieser Technik könnte endlich auch der Inhalt des Videos erkannt und durchsuchbar gemacht werden - sofern in diesem Video gesprochen wird. Bis die Suchmaschine in der Lage ist auch den visuellen Inhalt des Videos soweit zu erkennen dass daraus wichtige Informationen geschlossen werden können, werden sicherlich noch ein paar Jahre vergehen - aber die Spracherkennung könnte eigentlich jederzeit gestartet werden. Ich bin mir auch relativ sicher dass Google bereits damit begonnen hat die Videos nach ihrem Audio-Inhalt zu scannen. Und sobald alle Videos indiziert sind kann das ganze dann an den Start gehen.
Die Leute suchen nicht nach Stellen, in denen dieser oder jener Mann über dieses oder jenes geschichtliche Thema gesprochen hat. Aber all diese Informationen sind vorhanden und mit Spracherkennung wird man auf sie bald zugreifen können.
Websuche Unter der Haube hat sich bei Googles Websuche in den letzten Jahren so einiges getan - von 99% dieser Änderungen und Verbesserungen hat der gemeine User aber nichts bemerkt, daher wird Google oft vorgeworfen seine Websuche zu vernachlässigen. Das liegt zum einen daran dass sich die Oberfläche bewährt hat und nicht viel daran gedreht werden muss, und zum anderen daran dass die Probleme vor die die Googler gestellt werden mehr als komplex sind:
Wir schauen nicht nur auf die eingetippten Worte. Auch Schreibvarianten und die Länge der Suchanfrage werden überprüft, dann erst wird sie in Teile zerlegt. Vielleicht meinte der Nutzer einige der Worte ja als Suchbegriff, andere wieder nicht.
Das größte Problem aller Suchmaschinen dürfte wohl sein, dass der User einfach zuviel von seiner Suchmaschine abverlangt. Die meisten sind einfach zu faul mehr als 3 Wörter einzutippen um eine fertige Doktorarbeit präsentiert zu bekommen. Für die Suchmaschine ist es hierbei natürlich sehr schwierig - wenn nicht sogar unmöglich - herauszufinden wonach der User eigentlich sucht. Oftmals wäre bei den Suchanfragen sicherlich auch ein Mensch vollkommen überfragt...
Am weitesten von einer Lösung entfernt sind wir aber bei der Eingabe von vollständigen Sätzen in englischer Sprache, die dann auch eine echte Antwort in natürlicher Sprache ergibt.
Die Suchmaschine muss seinen User kennen lernen um ihm die optimalen Ergebnisse liefern zu können. Wenn die Suchmaschine weiß an welchem Thema der User gerade arbeitet, dann könnte der Trefferkreis natürlich stark eingeschränkt werden und das gesuchte Dokument wäre ganz weit oben in den Suchergebnissen. Das Problem dabei ist, dass der User der Suchmaschine diese Informationen garnicht geben möchte - ein Teufelskreis.
Eines der Forschungsvorhaben, die wir prüfen, betrifft Möglichkeiten, den Nutzer stärker einzubeziehen, ihn dazu zu bringen, uns mehr über das zu sagen, was er will. Die Menschen geben beispielsweise "Karte" bei Google ein und sind dann enttäuscht, wenn nicht gleich die Karte kommt, an die sie dachten. Die Menschen sind viel eher dazu bereit, etwas zu sagen, als etwas zu tippen. Vielleicht hilft ja auch ihnen mehr Vorschläge zu unterbreiten, was sie gemeint haben könnten, aber nicht eingegeben haben.
Daher bleibt der Suchmaschine nichts weiter übrig, als blind zu raten was gemeint sein könnte und den User einfach explizit nach weiteren Details zu fragen. Aber auch bis dahin dass das perfekt funktioniert ist es sicherlich noch ein sehr weiter weg... » Das komplette Interview bei Technology Review
Google Images
Die Googler haben sich mal wieder ein großes Ziel gesetzt: Die perfekte Erkennung von Inhalten auf Bildern und Fotos. Während das Image Labeler-Spielchen eher auf menschliche Hilfe setzt, wird zur Zeit an einem Algorithmus gearbeitet der automatisch erkennen soll ob auf dem Foto ein Mann oder eine Frau zu sehen ist. Wofür das später eingesetzt werden soll ist noch relativ unklar. Um Fotos zu analysieren werden diese erst in ein Graustufen-Bild umgewandelt, verkleinert und dann von entsprechender Software analysiert. Laut ersten Aussagen der Googler werden zur Zeit schon Trefferquoten von 80-90% erzielt - was ich aber eher für unwahrscheinlich halte. Ich denke alleine schon die Erkennung ob sich auf dem Foto ein Mensch befindet dürfte nicht ganz so einfach sein. Ich weiß nicht wie weit die Technik auf diesem Gebiet zur Zeit schon ist. Es gab mal eine Webseite, bei der man Fotos hochladen konnte und innerhalb weniger Sekunden war das Gesicht der Person auf diesem Bild mit einem Logo verdeckt - leider habe ich die URL vergessen. Die Erkennung des Gesichts ist also möglich, der Vergleich von Gesichtern auch. Und selbst wenn Google es geschafft hat das Geschlecht zu erkennen, dann bleibt immer noch die Frage nach dem Anwendungsgebiet. Bis zu einer wirklichen Foto-Erkennung, so dass mir der Rechner sagen kann wer und was auf dem Foto zu shen ist, wird es wohl noch Jahrzehnte dauern. Laut internen Aussagen soll die Software vorallem dafür eingesetzt werden, die Bildersuche von pornographischem Content freizuhalten. Ich denke aber dass dieser Grund nur vorgeschoben ist - zumindest mit der reinen Gesichtserkennung könnte es schwer werden ;-) Und ob der Algorithmus die Strand-Fotos im Bikini und Badehose von den Porno-Fotos unterscheiden kann wage ich auch mal leicht zu bezweifeln... [ZDNet-Blog]