Mit der in Chrome integrierten Web Speech API lassen sich sehr leicht Sprachkommandos von Nutzern direkt im Browser aufnehmen, erkennen und in Textform umwandeln. Wie ein amerikanischer Blogger nun entdeckt hat, lässt sich diese Funktion aber auch sehr leicht dazu nutzen, den Nutzer ohne sein Wissen abzuhören und alle Hinweise darauf zu verstecken. Dabei nutzt er nur die zur Verfügung gestellten Anpassungsmöglichkeiten.
Will man auf einer Webseite die Spracherkennung von Google einbauen, erscheint automatisch das mittlerweile bekannte dunkelgraue Mikrofon-Symbol mit dem die Spracherkennung gestartet wird. Im Normalfall muss der Nutzer auf dieses Icon klicken, der Browser hört zu und informiert den Nutzer über eine kleine Infobox über die Sprachaufnahme, und die Webseite bekommt von der API den umgewandelten Text ausgeliefert. Aber das ganze funktioniert auch ohne das Wissen des Nutzers.
Um diese Funktion zum ausspionieren des Nutzers zu verwenden, hat der Blogger erst einmal die Größe des Icons geändert und dieses auf die gesamte Größe der Webseite gestreckt. Dadurch wird jeder Klick des Nutzers als Klick auf das Mikrofon gewertet. Nun lässt sich via CSS die Farbgebung dieses Icons ändern, so dass es mit dem Hintergrund verschmolzen werden oder ein komplett anderer Button darüber gelegt werden kann. Schon aktiviert jeder Klick des Nutzers das Mikrofon.
Die kleine Info-Blase über die Mikro-Aufnahme lässt sich ebenfalls ganz einfach außerhalb des sichtbaren Bereichs verschieben, so dass der Benutzer dies gar nicht mitbekommt. Auch die neuen Tab-Icons schaffen hier keine Abhilfe, da diese Symbole nur in den Tabs selbst angezeigt werden – durch einen einfachen Vollbildmodus der Webseite lassen sich auch diese relativ einfach ausblenden. Und schon steht der dauerhaften Abhörung des Nutzers nichts mehr im Wege.
Google wurde angeblich schon über den Bug bzw. diese Möglichkeit der Manipulation informiert, soll aber bisher nicht darauf reagiert haben. Das relativ einfache Spiel im obigen Video zeigt allerdings sehr deutlich, wie leicht der Nutzer zum ständigen klicken animiert werden kann und so immer wieder die Aufnahme aktiviert.