YouTube Captions: Automatische Untertitel zeigen jetzt auch einige Geräusche in Textform an
Schon seit vielen Jahren bietet YouTube Untertitel für Videos an, die im Laufe der Jahre immer weiter verbessert wurden. Bisher bezogen sich diese allerdings stets nur auf gesprochene Wörter und haben diese optional am unteren Rand des Players angezeigt. Jetzt hat die Videoplattform angekündigt, in Zukunft auch Soundeffekte zu untertiteln und diese ebenfalls in Form von Worten anzuzeigen. Beginnen tut man nun erst einmal mit drei Wörtern.
Die Untertitel für YouTube-Videos wurden Mitte 2008 eingeführt und mussten zu dieser Zeit noch mühsam von Hand angelegt werden. Diese haben dann aber auch den Vorteil gebracht, dass diese automatisch übersetzt werden und so die Zielgruppe deutlich vergrößern konnten. Schon ein Jahr später wurden die automatischen Untertitel per Spracherkennung eingeführt, die es dann ganze drei Jahre später auch in Deutsch gegeben hat.
Mittlerweile hat YouTube bereits mehr als 1 Milliarde Video mit automatisch Untertiteln versehen und widmet sich nun dem nächsten Schwerpunkt: Nachdem die Spracherkennung schon sehr gut funktioniert, ist nun das Erkennen von Geräuschen bzw. Soundeffekten dran. Und das ist überraschenderweise nicht ganz so einfach, wie man nach der automatischen Erkennung von Sprache meinen könnte. Deswegen beginnt man nun erst einmal mit den drei Worten [APPLAUSE], [LAUGHTER] und [MUSIC].
Die Erkennung von Geräuschen wird erst durch Machine Learning möglich und erfordert langes Training der Algorithmen. Dabei ist nicht nur das Erkennen des Geräusches selbst das große Problem, sondern auch die Erkennung, ob dieses im Vordergrund oder Hintergrund stattfindet und wirklich beschrieben werden muss. Wenn während eines Gesprächs im Hintergrund Musik läuft, ist es wenig hilfreich wenn ständig die Beschreibung „[MUSIC]“ angezeigt wird. Die Priorität soll auch weiterhin immer bei der Sprache liegen.
Ein weiteres Problem ist es, die Geräusche mit nur einem oder nur sehr wenigen Worten zu beschreiben. Als Beispiel wird das Wörtchen [RING] genannt, denn dabei kann es sich um die Tür, das Telefon oder auch um eine andere Glocke handeln. Genau so könnte man auch beschreiben ob die Musik fröhlich, spannend oder vielleicht auch bedrohlich klingt. Die Erkennung dürfte nicht das Hauptproblem sein, sondern eben die Gewichtung, ob diese Information wirklich wichtig ist oder nicht.
Wie genau diese Erkennung funktioniert und welche Überlegungen hinter dieser neuen Funktion stecken, wird im Beitrag bei Google Research sehr lang und ausführlich beschrieben. In der englischen Sprache sind die Untertitel für die drei Wörter [APPLAUSE], [LAUGHTER] und [MUSIC] ab sofort freigeschaltet und können ausprobiert werden.
» Ankündigung im Google Research Blog
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter