Der Leiter von Google Research, Peter Norvig, hat auf der „Emerging Technology“-Konferenz in San Diego einen Einblick in Googles Such- und Übersetzungstechnologie gegeben.
Aus diesem ergibt sich, dass das Unternehmen nicht nur auf komplizierte Modelle und Theorien setzt, sondern vor allem auch auf eine sehr große Menge an Daten. Bei der Übersetzung von Chinesisch-Englisch erklärt sich das am besten: Im Chinesischem bilden mehrere Schriftzeichen ein Wort, aber ein Schriftzeichen bedeutet gleichzeitig auch ein anderes bzw. eine andere Silbe.
Um halbwegs sinnvolle Chinesisch-Englisch Übersetzungen zu liefern, werde bei der Übersetzung Vergleichsdaten – Wahrscheinlichkeitstabellen – untersucht. Dann wird bei der Übersetzung eines Textes mit diesen Tabellen verglichen.
Sehr ähnlich ist es bei der Bildersuche. Bisher wurden nur die Metadaten eines Fotos verwendet. Das ergab eine hoche Fehlerquote. In Zukunft will man die ersten 1 000 Bilder der Ergebnisse vergleichen und dann Ähnlichkeiten feststellen. Haben zwei Bilder viele Punkte gemeinsam werde sie als ähnlich und damit relevant eingestuft.
Laut Norvig ist die Datenmenge das Problem der Start-ups. Google habe durch große Serverfarmen genügend Speicher um solche Tabellen anzulegen.