Der Google Assistant wird hauptsächlich per Spracheingabe verwendet, deren Befehle in den meisten Fällen mit dem Aktivierungswort „Hey Google“ beginnen. Um die Erkennung dieses Begriffs weiter zu verbessern, wird man nun auch auf föderales Lernen setzen, das die ersten Nutzer optional aktivieren können. Dabei können veränderte Sprachmodelle direkt an die Google-Server übertragen werden.
Der Google Assistant kann einige Befehle Offline ausführen, doch für die meisten Anfragen muss entweder der Sprachbefehl oder die bereits auf dem Smartphone erkannte Aufgabe an die Google-Server gesendet werden, wo diese weiter bearbeitet und beantwortet werden können. Das funktioniert relativ problemlos, aber es kommt auch immer wieder zu False Positives oder zu holprigen Erkennungen des Aktivierungswortes. Weil die Sprachaufzeichnungen an die Google-Server gesendet werden, kann das in einigen Fällen problematisch sein.
Nun möchte sich Google diesem Problem verstärkt annehmen und mit föderalem Lernen die Erkennung weiter verbessern. Haben die Nutzer diese Option aktiviert, wird „Hey Google“ verstärkt ausgewertet. Dabei geht es vor allem darum herauszufinden, ob der Begriff absichtlich genannt wurde, ob der Nutzer ein ähnliches Wort gesagt hat oder ob er den Befehl vielleicht mehrmals wiederholen musste. Jede Aufzeichnung wird auf dem Gerät inklusive zahlreicher Metadaten gespeichert.
Ziel ist es, anhand von einer auf dem Gerät ausgeführten KI die Erkennung zu verbessern. Dabei dürfte nicht nur die Aussprache oder Lautstärke eine große Rolle spielen, sondern auch die Daten, wie der Nutzer sein Gerät derzeit verwendet. Pro Tag sollen bis zu 20 Aufzeichnungen gemacht und bis zu 63 Tage gespeichert werden.
Die Auswertung soll vor allem auf dem Smartphone stattfinden, doch um den Google Assistant für alle Nutzer zu verbessern, reicht das natürlich nicht aus. Man setzt auf föderales Lernen, bei dem die Ergebnisse der einzelnen Auswertungen zusammengetragen und noch einmal bei Google ausgewertet werden. Nach Angaben im Support-Dokument werden nur veränderte Modelle und Parameter an die Google-Server gesendet, aber keine Sprachbefehle oder sonstige Informationen, die den Nutzer identifizieren könnten.
Near activations happen when the “Hey Google” model detects audio or something you say that almost activates Google Assistant.
Google servers don’t save your voice recordings from near activations, but your device does if federated learning is on. Your device may not indicate anything when it stores these recordings and may store up to 20 recordings per day, which includes:
- Data about how and when you interact with your phone
- How successful an interaction is
- Information about your phone configuration
Federated learning uses the voice recordings stored on users’ devices to refine models like “Hey Google.” It learns how to adjust the model from the voice data, and sends a summary of the model changes to Google servers. To provide a better model for everyone, these summaries are aggregated across users.
Derzeit steht dieses neue Modell nur für wenige Nutzer zur Verfügung und richtet sich vermutlich nur an englischsprachige Nutzer – zumindest steht das Support-Dokument nur in englischer Sprache bereit. Von einer geographischen Einschränkungen ist aber keine Rede.
» Informationen beim Google Support