Deepmind: Googles Künstliche Intelligenz kann jetzt auch Lippen lesen
Die Google-Tochter Deepmind konzentriert sich voll und ganz auf den Bereich der Künstlichen Intelligenz und hat dabei schon mehrmals beeindruckende Beispiele für die Fortschritte der intelligenten Algorithmen geliefert. Jetzt wurde wieder ein neues Projekt vorgestellt, in dem es um eine Kombination aus Bild- und Spracherkennung geht: Googles Künstliche Intelligenz kann nun auch Lippen lesen und hat dabei eine erstaunlich hohe Trefferquote.
In diesem Jahr hat sich Deepmind vor allem durch den Sieg gegen den AlphaGo-Weltmeister einen Namen gemacht, konnte aber auch eine Reihe weiterer Erfolge feiern: So konnte man etwa auch die Kühlungskosten von Googles Rechenzentren senken aber auch die menschliche Stimme imitieren und musizieren. Für die Zukunft hat man außerdem schon angekündigt, schon bald StarCraft II zu spielen.
In einem weiteren Projekt hat man die Künstliche Intelligenz nun gegen Lippenleser antreten lesen, und hat diese deutlich in den Schatten gestellt: Mit einem Training von „nur“ etwa 5.000 Stunden Videomaterial haben die Algorithmen das Lippen-Lesen gelernt und konnten danach fast jedes zweite Wort korrekt erkennen. Selbst Experten auf diesem Gebiet kamen nur auf eine sehr viel niedrigere Erkennungsrate und konnten gerade einmal ein Viertel von Deepminds Erkennungsrate erreichen. Nach dem Training beherrschte das System gut 17.500 Wörter.
Trainiert wurden die Systeme mit 5.000 Stunden Videomaterial der BBC, in denen Menschen direkt in die Kamera sprechen – wie etwa beim Frühstücksfernsehen oder Nachrichten. Nach diesem Training hat man dem System dann andere Folgen vorgesetzt, und es konnten 46,2 Prozent aller gesprochenen Wörter korrekt erkannt werden – und das völlig ohne Audiospur. Selbst Experten kamen bei dieser Schwierigkeit und ganz ohne Ton nur auf eine Rate von knapp über 12 Prozent. Damit hat die KI selbst in einem so frühen Stadium gezeigt, dass sie dem Menschen in so sensiblen Bereichen schnell überlegen sein kann.
Beeindruckend ist aber nicht nur die Erkennungsrate, sondern auch die Tatsache dass sich die KI diese Fähigkeit komplett selbst beigebracht hat und nur mit passendem Bild- und Ton-Material trainiert hat. Dies erforderte allerdings noch einige Vorarbeit der Entwickler, denn die Tonspuren der Originale waren um einige Millisekunden verschoben und sorgten so für falsche Ergebnisse. Nach dieser Behandlung war das Material aus den Jahren 2010 bis 2015 dann für die KI nutzbar.
Mit dieser Trefferquote stellt Deepminds Technologie aber nicht nur die Menschen in den Schatten, sondern auch alle bisherigen Bemühungen von anderen Forschungseinrichtungen wie der Uni Oxford mit ihrem LipNet-Programm. Mit diesem erreicht man eine Trefferquote von über 93 Prozent – allerdings mit einem Wortschatz von gerade einmal 51 Wörtern. Deepmind hingegen kommt im Selbst-Training auf über 17.000 Wörter und hat dadurch eine deutlich höhere Quote.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter