Tacotron 2: Googles Sprachausgabe ist vom Menschen kaum noch zu unterscheiden (Hörproben)

assistant 

Spätestens seit der steigenden Verbreitung der smarten Assistenten ist die Erkennung und Ausgabe von Sprache eine wichtige Aufgabe und wird von den Unternehmen immer weiter entwickelt. Google hat nun nach eigenen Aussagen mit einem neuen System so große Fortschritte gemacht, dass die Ausgabe der Sprache nicht mehr von einem Menschen unterschieden werden kann. Mit einer Sammlung von mehr als zwei Dutzend Beispielen kann sich jeder ein eigenes Bild machen.


Google arbeitet seit sehr vielen Jahren an der Sprachausgabe und hat schon lange vor den ersten smarten Assistenten einige Dienste mit einer solchen Audio-Funktion ausgestattet. Das begann vor langer Zeit mit einer Suchmaschine per Telefon, ging über die Sprachausgabe und -Eingabe in der Websuche bis hin zum Vorlesen der Übersetzungen in Google Translate. Die Qualität wurde im Laufe der Zeit immer besser und die Stimme immer menschlicher.

assistant vs. siri

Jetzt wurde das neue System Tacotron 2 vorgestellt, mit dem die Ausgabe weiter perfektioniert worden ist. Das System basiert komplett auf „Text-zu-Sprache“ und benötigt weder eine Vorbereitung noch eine spezielle Eingabe. Tacotron soll sowohl mit Fremdwörtern klar kommen als auch Betonungen, Satzzeichen und andere Dinge so aussprechen, dass sie vom Menschen als solche wahrgenommen werden. Tatsächlich ist man nun soweit, dass die Ausgabe nicht mehr von einem Menschen unterschieden werden kann.

Meiner Meinung nach ist hier noch einmal ein großer Sprung gelungen, denn abgesehen von der Stimmfarbe – die auch weiterhin künstlich klingt – hat man tatsächlich das Gefühl dass die Person hinter der Aussprache den Inhalt versteht und korrekt betont. Aus kurzen Beispielen lässt sich zwar nicht viel heraushören, aber es dürfte auch sehr angenehm sein, einem solchen System für längerer Zeit zuzuhören bzw. mit diesem zu kommunizieren.

Erst Anfang des Jahres konnte Google eine deutliche Steigerung der Spracherkennung vermelden und hat somit auch das Gegenstück weiter perfektioniert. Bis zu einer realen Konversation ist es zwar noch ein kleiner Weg, aber die Richtung stimmt. Wer sich selbst von der Qualität überzeugen möchte, findet hier einige Beispiele.



Komplexe Wörter
Basilar membrane and otolaryngology are not auto-correlations.

Betonung nach Bedeutung
He thought it was time to present the present.

Korrektur von Schreibfehlern
Thisss isrealy awhsome.

Betonung von wichtigen Satzteilen
The buses aren’t the PROBLEM, they actually provide a SOLUTION.

Betonung von Fragen
Does the quick brown fox jump over the lazy dog?

Zungenbrecher
Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?

Viele weitere Beispiele und der Vergleich zwischen der Sprachausgabe und einem Menschen findet ihr direkt auf der Projektseite von Google. Hört es euch einmal an.

» Tacotron 2

Siehe auch
» In den letzten fünf Jahren: Google konnte die Qualität der Spracherkennung um 30 Prozent steigern

[9to5Google]




Teile diesen Artikel:

Facebook twitter Pocket Pocket

comment 2 Kommentare zum Thema "Tacotron 2: Googles Sprachausgabe ist vom Menschen kaum noch zu unterscheiden (Hörproben)"

  • Klingt schon cool. Hoffe die schaffen das auch mal für DE. Ich finde jetzt schon, wenn ich mein Google Home auf EN antworten lassen lasse klingt die Ausgabe angenehmer. Die deutsche Sprache hinkt meistens eine Verwion hinterher. Bei Siri auch so. Alexa hatte ich letztens mal gehört, die klingt gruselig 🙂

Kommentare sind geschlossen.