Interessanter Einblick: So erstellt Google Photos die Animationen und Video-Highlights für den Nutzer
Google Photos ist nicht nur eine sehr praktische Plattform zur Sicherung und Synchronisierung von Fotos und Videos aller Art, sondern erstellt mit dem integrierten Assistenten auch noch sehenswerte Videos und Animationen für den Nutzer. Das kann manuell angestoßen werden, geschieht aber auch vollautomatisch ohne Zutun des Nutzers im Hintergrund. Jetzt hat das KI-Team einen interessanten Einblick darin gegeben, wie die besten Szenen aus Videos ausgewählt und zu Animationen verarbeitet werden.
Google Photos verfügt nicht nur über eine sehr starke Suchfunktion, sondern hilft dem Nutzer auch in Form des integrierten Assistenten dabei, die Fotos und Videos in der eigenen Datenbank neu zu entdecken und die schönsten Aufnahmen auf einen Blick zu haben. Wer eine vierstellige Anzahl an Fotos von jedem Event schießt, wird diese Funktion wohl schon mehrmals zu schätzen gewusst haben, auch wenn sie natürlich noch längst nicht perfekt ist.
Der Assistent erstellt sowohl Collagen als auch Videos und kurze Animationen. Die letzten Beiden können entweder aus einer Anreihung von Fotos, aber auch aus Auszügen von Videos bestehen. Dabei hat sich sicher schon der eine oder andere gefragt, wie die Künstliche Intelligenz die besten Szenen heraussucht, die tatsächlich auch häufig für den Nutzer sehr sinnvoll und wertvoll sind (das ist zumindest mein subjektiver Eindruck, kann bei jedem anders sein). Das KI-Team gibt nun eine Antwort darauf.
In einem längeren und mit Diagrammen unterlegten Blogbeitrag wird nun erklärt, wie diese Szenen für die Videos und Animationen ausgewählt werden. Dabei ist allerdings sehr viel Grundwissen in der Fotoanalyse und KI notwendig und es wird mit vielen Fachbegriffen um sich geworfen. Ehrlicherweise muss ich sagen, dass ich es selbst nicht verstanden habe, aber dennoch an dieser Stelle nicht vorenthalten möchte. Deswegen ein kurzer Erklärungsversuch ohne Gewähr, der für technisch versierte mit dem Originalbeitrag abgesichert werden sollte.
Das gesamte System arbeitet ähnlich wie eine Objekterkennung, nur dass in diesem Fall Bewegungen und Bewegungsmuster erkannt werden, die intern getaggt werden. Dadurch ergibt es sich, dass die KIs mit leicht zu verarbeitenden Informationen arbeiten können. Diese werden mit einer zuvor erstellten Datenbank, die immer dauerhaft trainiert wird, abgeglichen. So wissen die Algorithmen etwa, dass das Kerzen-Ausblasen beim Geburtstag ein wichtiger Moment ist, auf dem Spielplatz vor allem Rutschvideos beliebt sind oder am Pool der Sprung ins kühle Nass vermutlich das Highlight des Videos ist.
Die Erkennung und Zuordnung von Bewegungen arbeitet, so wie jede KI, einfach nur mit Bergen an Daten und Vergleichen. Zur endgültigen Auswahl wird aber auch berücksichtigt, was VOR und NACH dem möglichen Moment passiert, es werden einzelne ausgewählte Moment noch einmal gegeneinander gewichtet und es gibt vor allem keine Regel für die Länge. Manches dauert nur Sekunden, anderes wiederum Minuten. Beides kann vom Assistenten ausgewählt und in Videoform verarbeitet werden.
Siehe auch
» Google Fotos & Google Drive: So lassen sich die beiden Plattformen miteinander verknüpfen & flexibler nutzen
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter
Und trotzdem ist die Google KI dämlich wie ein Stück Brot. Die kriegt es bis heute zumindest bei mir nicht hin, eine Kuh von einem Hund zu unterscheiden. Ich habe soooooo viele Fehler in der Suche, das ist unglaublich. Auch Personen die falsch erkannt werden. Und so viel ich weiss hat man als User null Möglichkeit diese Fehler zu korrigieren. Die Fehler bleiben und werden immer Schlimmer! Wird Person A also Person B „erkannt“ hast du null Chance das zu korrigieren! Nur ab und zu wird man scheinbar zufällig gefragt. Zeigt das Foto Person A ? Und wenn du dich dann verklickt, dann hast du Pech gehabt! Ich meine, ich bin nicht sauer, dass es nicht funktioniert. Aber mich kotzt diese Beweihräucherung die Google immer wieder macht an, wenn nicht Mal die simpelsten Basic Sachen funktionieren! Und man diese selbst auch nicht korrigieren kann!