Google sieht eure Fotos: Hier könnt ihr die Cloud Vision API selbst in vollem Umfang ausprobieren (Galerie)
Von Googles starker Bilderkennung können sich alle Nutzer in Apps wie Fotos oder der Bildersuche überzeugen, denn die Ergebnisse und Kategorisierungen wären ohne eine solche gar nicht möglich. Mit den jetzt verfügbaren KI-Möglichkeiten wird die Bilderkennung auf ein ganz neues Level gehoben, dessen Umfang vielen Menschen vielleicht gar nicht bekannt ist. Wir zeigen euch, wie ihr die beeindruckende Cloud Vision API direkt im Browser ausprobieren könnt.
Erst vor wenigen Tagen haben wir euch ein Tool vorgestellt, das es sich zur Aufgabe gemacht hat, die Nutzer ein wenig vor der allzu sorglosen Freigabe oder dem Upload von Bildern aufzurütteln. Es soll zeigen, wie viel Google durch ein einziges hochgeladenes Bild über den Nutzer bzw. das fotografierte Motiv erfahren kann. Probiert das Tool They See Your Photos doch einfach einmal aus und staunt, wie umfangreich die Beschreibung der Motive ausfällt und wie viele Fakten sich darin befinden.
Das vorgestellt Tool basiert auf der Google Cloud Vision API, die sowohl bei externen Anwendungen als auch bei Gemini zum Einsatz kommt. Auch diese lässt sich kostenlos und unbegrenzt ausprobieren, um sich selbst davon ein Bild zu machen, was die Algorithmen alles in einem Bild erkennen können. Das ist tatsächlich ziemlich viel, denn es werden nicht nur Objekte und Personen erkannt, sondern auch Gesichtsausdrücke, Kopfhaltung, Gefühlslage, das Gesamtszenario des Bildes und vieles mehr.
Hier findet ihr anhand eines einfachen Fotos eine Reihe von Beispielen, die von der Cloud Vision API darin erkannt worden sind. Alles innerhalb weniger Sekunden nach dem Upload inklusive einer jeweiligen Wahrscheinlichkeitsangabe zur Einordnung bzw. Zuverlässigkeit. Diese kommt normalerweise nur im Hintergrund zum Einsatz, ist aber gerade für Tools wie Lookout sehr praktisch.
Gesichter
Die Algorithmen erkennen alle Gesichter auf einem Bild, das ist keine große Sache mehr. Die Cloud Vision API gibt außerdem den Gesichtsausdruck bzw. die visuell erkannte Gefühlslage an: Glücklich, traurig, aufgeregt, überrascht und mehr. Aber auch ein verpixeltes Gesicht oder eine Kopfbedeckung wird erkannt. Zusätzlich gibt es die Information über die Kopfhaltung: Neigung, Blickrichtung und Rollen.
Objekte
Hier findet ihr eine Auflistung aller auf dem Foto erkannten Objekte, also Gegenstände nach Kategorien sortiert. Auch dafür gibt es eine Prozentangabe.
Label
Die Label geben an, was auf dem Foto hauptsächlich zu sehen ist und ermöglichen somit eine Art Einstufung des Bildes sowie eine automatische Kategorisierung für Uploads.
Eigenschaften
In den Eigenschaften gibt es eine Auflistung der dominierenden Farben sowie Empfehlungen für Bildausschnitte. Diese sollen den jeweils relevanten Teil vorschlagen und in unterschiedlichen Formaten herausschneiden.
Safe Search
Eine praktische Angabe für einen schnellen Check von Fotos, die von anderen Nutzern hochgeladen und veröffentlicht werden sollen. Die API versucht zu erkennen, ob es sich um einen Erwachseneninhalt handelt, um eine Parodie, eine medizinische Darstellung, Betrug oder Rassismus. Für alle Einstufungen gibt es mehrere Schritte sowie eine Prozentangabe der Wahrscheinlichkeit.
So könnt ihr die Cloud Vision API ausprobieren
Wer das selbst einmal ausprobieren möchte, findet HIER die Cloud Visione API. Es handelt sich zwar nur um die Dokumentation, aber die integrierte Demo erlaubt euch den Upload eines beliebigen Bildes und gibt eine Reihe von Daten aus. Je nach fotografiertem Motiv können sich die Angaben und auch die Kategorien natürlich voneinander unterscheiden. Und aus diesen Rohdaten formen andere KIs sowie die Kombination aus mehreren Fotos dann größere Profile mit Informationen über die Nutzer.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter