Google Photos ist nicht nur eine sehr praktische Plattform zur Sicherung und Synchronisierung von Fotos und Videos aller Art, sondern erstellt mit dem integrierten Assistenten auch noch sehenswerte Videos und Animationen für den Nutzer. Das kann manuell angestoßen werden, geschieht aber auch vollautomatisch ohne Zutun des Nutzers im Hintergrund. Jetzt hat das KI-Team einen interessanten Einblick darin gegeben, wie die besten Szenen aus Videos ausgewählt und zu Animationen verarbeitet werden.
Google Photos verfügt nicht nur über eine sehr starke Suchfunktion, sondern hilft dem Nutzer auch in Form des integrierten Assistenten dabei, die Fotos und Videos in der eigenen Datenbank neu zu entdecken und die schönsten Aufnahmen auf einen Blick zu haben. Wer eine vierstellige Anzahl an Fotos von jedem Event schießt, wird diese Funktion wohl schon mehrmals zu schätzen gewusst haben, auch wenn sie natürlich noch längst nicht perfekt ist.
Der Assistent erstellt sowohl Collagen als auch Videos und kurze Animationen. Die letzten Beiden können entweder aus einer Anreihung von Fotos, aber auch aus Auszügen von Videos bestehen. Dabei hat sich sicher schon der eine oder andere gefragt, wie die Künstliche Intelligenz die besten Szenen heraussucht, die tatsächlich auch häufig für den Nutzer sehr sinnvoll und wertvoll sind (das ist zumindest mein subjektiver Eindruck, kann bei jedem anders sein). Das KI-Team gibt nun eine Antwort darauf.
In einem längeren und mit Diagrammen unterlegten Blogbeitrag wird nun erklärt, wie diese Szenen für die Videos und Animationen ausgewählt werden. Dabei ist allerdings sehr viel Grundwissen in der Fotoanalyse und KI notwendig und es wird mit vielen Fachbegriffen um sich geworfen. Ehrlicherweise muss ich sagen, dass ich es selbst nicht verstanden habe, aber dennoch an dieser Stelle nicht vorenthalten möchte. Deswegen ein kurzer Erklärungsversuch ohne Gewähr, der für technisch versierte mit dem Originalbeitrag abgesichert werden sollte.
Das gesamte System arbeitet ähnlich wie eine Objekterkennung, nur dass in diesem Fall Bewegungen und Bewegungsmuster erkannt werden, die intern getaggt werden. Dadurch ergibt es sich, dass die KIs mit leicht zu verarbeitenden Informationen arbeiten können. Diese werden mit einer zuvor erstellten Datenbank, die immer dauerhaft trainiert wird, abgeglichen. So wissen die Algorithmen etwa, dass das Kerzen-Ausblasen beim Geburtstag ein wichtiger Moment ist, auf dem Spielplatz vor allem Rutschvideos beliebt sind oder am Pool der Sprung ins kühle Nass vermutlich das Highlight des Videos ist.
Die Erkennung und Zuordnung von Bewegungen arbeitet, so wie jede KI, einfach nur mit Bergen an Daten und Vergleichen. Zur endgültigen Auswahl wird aber auch berücksichtigt, was VOR und NACH dem möglichen Moment passiert, es werden einzelne ausgewählte Moment noch einmal gegeneinander gewichtet und es gibt vor allem keine Regel für die Länge. Manches dauert nur Sekunden, anderes wiederum Minuten. Beides kann vom Assistenten ausgewählt und in Videoform verarbeitet werden.
Siehe auch
» Google Fotos & Google Drive: So lassen sich die beiden Plattformen miteinander verknüpfen & flexibler nutzen