Google sieht deine Fotos: Neues Tool demonstriert die überraschend starke Bilderkennung – probiert es aus
Googles KI-basierte Bilderkennung ist den meisten Nutzern seit vielen Jahren aus Produkten wie Google Fotos oder auch der Bildersuche bekannt, wo sie für praktische Kategorisierungen sorgt. Doch die Bilderkennung kann sehr viel mehr, als es diese Produkte den Anschein machen, denn es geht längst weit über die Objekterkennung und Personenerkennung hinaus. Ein wirklich interessantes Tool zeigt euch jetzt, wie viele Informationen Googles Algorithmen aus einem einzigen Bild ziehen können.
Die Anwender von Produkten wie Google Fotos können sich schon seit vielen Jahren von Googles Bilderkennung überzeugen, wo das Tool sehr praktische Dienste leistet. Gesichter und Personen, Objekte, Landschaften, Szenerien oder Ähnliches sind für Google Fotos überhaupt kein Problem, auch Dokumente erkennt die Plattform zuverlässig und kann diese einordnen. Natürlich kann die KI auch einmal falsch liegen, aber grundsätzlich kann man den smarten Erkennungen und Einordnungen schon vertrauen. Ein Fortschritt innerhalb dieser Produkte wäre wünschenswert, denn hinter den Kulissen hat er längst stattgefunden.
Denn der große KI-Boom der letzten zwei Jahre ist auch an Googles Algorithmen zur Bilderkennung nicht spurlos vorbeigegangen, denn man hat riesige Fortschritte gemacht. Schon vor bald einem Jahr hat Google selbst eine Videoerkennung vorgestellt und damit schon gezeigt, wie weit man ist. Doch welche Power die Google Vision API wirklich hat, kommt nur sehr selten zum Vorschein. Ein neues Tool der Ente-Macher macht es jetzt ganz einfach, sich selbst davon zu überzeugen.
Die Entwickler haben die Plattform They See Your Photos gestartet, die sehr einfach funktioniert. Ihr ladet einfach ein beliebiges Foto mit einem völlig beliebigen Motiv hoch und wartet ein paar Sekunden. Kurz darauf wird die von Google gestellte Vision-KI einen langen Text mit einer Bildbeschreibung ausspucken. Und diese Beschreibung ist sicherlich länger, als alles, was ein Mensch darauf beschreiben würde.
Die Beschreibung ist bei jedem Bild unterschiedlich, daher will ich an dieser Stelle nicht näher darauf eingehen. Doch es zeigt sich, dass die KI sehr gut das gesamte Motiv und nicht nur einzelne Bestandteile erfassen kann. Die KI beschreibt Personen inklusive Stimmungen, schätzt bei jeder Person sowohl das Alter als auch die Ethnie absolut korrekt ein und nennt die erkannten Beziehungen zueinander. Es wird die Gesamtstimmung des Bildes beschrieben, einzelne Objekte, ein gesamte Arrangement und vieles mehr, das über eine normale Objekterkennungs-Beschreibung hinaus geht.
Die KI könnte noch deutlich mehr, das merkt ihr allein schon daran, wenn ihr zwei sehr ähnliche Fotos mehrfach hochladet und immer wieder neue Details erhaltet. Es ist ein beeindruckendes Tool, das man sowohl zu Demozwecken als auch je nach Motiv und Situation vielleicht auch mal für den Eigenbedarf nutzen kann. Probiert das doch einfach einmal aus und staunt, wozu die von Google öffentlich angebotene Bilderkennung in der Lage ist. Und dann überlassen wir es einfach unserer Fantasie, was die KI Google-intern und nicht-öffentlich leisten kann…
Das Tool ist eigentlich nicht zum Staunen entwickelt, sondern eher zum aufrütteln. Denn der Titel ist Programm. Man will zeigen, wie viel Google aus einem einzigen Foto über euch erfahren kann. Bedenkt, dass viele Nutzer Tausende von Fotos hochgeladen haben, die von den Algorithmen analysiert werden. Da bekommt der Begriff des gläsernen Nutzers eine ganz neue Bedeutung.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter