Die maschinelle Bilderkennung steckt trotz jahrzehntelanger Entwicklung immer noch in den Babyschuhen, doch Google scheint in den letzten Monaten gewaltige Schritte nach vorne gemacht zu haben: Der beste Beweis ist die Suchfunktion von Google+ Photos mit einer beeindruckenden Erkennungsrate. Nun geben die Entwickler erneut einen Einblick in die dafür genutzte Technologie.
Natürlich ist es für ein Unternehmen mit einer Rechenpower wie sie Google besitzt etwas einfacher Fotos nach Objekten zu scannen, aber die Entwickler setzen ihren Fokus auf ressourcen-schonende Technologiei, so dass sie bspw. auch von einem Smartphone ausgeführt werden könnten. Im vergangen Monat hat Google bereits schon einmal einen Einblick in die Bilderkennung gegeben und den Erkennungsprozess etwas näher beschrieben.
Dieses mal erklären die Entwickler den grundsätzlichen Ablauf von der Erfassung des Bildes zur finalen Erkennung aller Objekte. Statt das Bild jedes mal erneut von einem Algorithmus nach Ähnlichkeiten zu bekannten Objekten durchsuchen zu lassen, setzt Google auf eine Technologie die die Objekte als solches überhaupt erst einmal erkennt und getrennt voneinander behandeln kann. Dadurch erhält der Algorithmus eine Reihe von Objekten die er nun „nur noch“ erkennen muss.
Nun setzt der Algorithmus zur weiteren Erkennung auch auf ein Ranking- und Gruppierungssystem und zieht logische Schlüsse. Ein roter Punkt kann z.B. ein Ball, ein Luftballon oder im Extremfall auch ein Teil eines Hahns sein. Erkennt der Algorithmus nun Objekte die im typischen Umfeld eines Bauernhofs vorkommen, kann der Algorithmus darauf schließen dass es sich mit ziemlicher Sicherheit um einen Hahn statt um einen Ball handelt. Obwohl natürlich auch ein Luftballon auf einem Bauernhof nichts so außergewöhnliches wäre.
Die Erkennung der Objekte läuft außerdem nicht nur über ein Pixel-Vergleichsverfahren, sondern zu großen Teilen mit Hash-Werten. Dadurch lassen sich die erkannten Objekte sehr viel schneller mit einer Datenbank vergleichen. Google schafft auf diesem Wege mit einem einzigen Prozessor und 20 GB Arbeitsspeicher die Erkennung von 100.000 Objekten in nur 20 Sekunden.
Die Entwickler beschreiben diese Technologie noch einmal ausführlich in einem 8seitigen Whitepaper.