OK, Google: Google hat eine starke und schlanke Offline-Spracherkennung entwickelt

google 

Die Spracherkennung der Google-App für Android hat ihre Qualität in den letzten Jahren deutlich verbessert und hat mittlerweile selbst bei nicht ganz so deutlichen Aussprachen oder Umgebungsgeräuschen eine sehr hohe Trefferquote. Allerdings setzt diese in fast allen Fällen immer noch eine Internetverbindung voraus und die Daten werden an Googles Server zur Auswertung geschickt. Jetzt ist es gelungen, ein sehr schlankes System zur Offline-Spracherkennung zu entwickeln.


Die Erkennung der beiden magischen Worte „OK, Google“ ist seit längerer Zeit fester Bestandteil der ins System integrierten Google-App und funktioniert natürlich auch ohne Internetverbindung. Doch bis auf eine kleine Reihe von Befehlen, wie etwa dem Starten einer App oder dem Umschalten einer System-Funktion, müssen alle weiteren Ansagen des Nutzers bisher an Googles Server gesendet werden und werden dann dort von den leistungsfähigen Algorithmen ausgewertet.

ok google

Jetzt ist es den Google-Forschern gelungen, die Spracherkennung auch Offline zu ermöglichen und dabei erstaunliche Werte zu erreichen: Die Geschwindigkeit soll ganze sieben mal so schnell sein wie die Online-Erkennung, wobei aber nicht ganz klar ist ob es dabei um die reine Dauer der Erkennung oder auch das Senden und Empfangen der Daten geht. Die Erkennungsrate soll dabei ebenfalls sehr hoch sein und nur bei etwa 13,5% aller Wörter versagen – was wohl ein guter Wert sein dürfte.

Erstaunlich ist auch die Größe der App bzw. der Bibliothek zur Erkennung der Sprache: Diese hat gerade einmal knapp über 20 MB pro Sprache und ist somit keine große Belastung für den Smartphone-Speicher und kann von jedem Nutzer heruntergeladen werden. Erreicht wird diese Größe vor allem durch eine starke Kompression. Wie groß die Software auf den Google-Servern ist, ist nicht bekannt, diese dürfte aber sicherlich deutlich größer sein als die jetzt entwickelte lokale Funktion.



Das System wurde mit 3 Millionen Sprachbeispielen getestet, was ungefähr 2.000 Stunden Sprache entspricht. Zusätzlich wurden auch YouTube-Videos zum Training herangezogen und haben die Qualität der App noch weiter verbessert. Aber auch die Anforderungen an die Hardware sind nicht ganz so groß, so dass das System bald auf jedem Smartphone zum Einsatz kommen könnte: Getestet wurde es auf einem Nexus 5 mit Quad-Core 2,26 GHz und 2 GB RAM.

Bisher handelt es sich bei der Software noch um eine interne Entwicklung, die aber sicherlich bald auch in die Google-App bzw. das gesamte Android-System Einzug halten könnte. Gerade für die vollkommene Steuerung des Smartphones per Stimme ist eine sehr gute Erkennung, die keine Internetverbindung benötigt, natürlich grundlegend wichtig. Ein Zeitplan für die mögliche Umsetzung wurde leider nicht genannt.

» Das Research Papier

[9to5Google]




Teile diesen Artikel:

Facebook twitter Pocket Pocket