NEWS

Anwendungsprogramme

Google Assistant klingt dank neuraler Netzwerke von DeepMind natürlicher

Portrait des Authors


Google Assistant klingt dank neuraler Netzwerke von DeepMind natürlicher
0

Werbung

Sprachsteuerungen klingen mittlerweile bereits deutlich natürlicher als noch vor einigen Jahren. Allerdings gibt es immer noch Möglichkeiten, die Betonung und auch den Klang näher an normale, menschliche Stimmen zu rücken. DeepMind versucht dies mit dem Projekt WaveNet, einem Deep Neural Network, das dafür sorgt, dass die durch digitale Assistenten kreierte Sprache menschlicher klingen soll. Mittlerweile hat Google an WaveNet Gefallen gefunden und setzt die Techniken des neuralen Netzwerks für seinen Google Assistant ein.

Allerdings betrifft das im ersten Schritt nur die englischen und japanischen Versionen. Auf der Website bietet DeepMind auch Vergleichs-Samples an, welche die Ansagen einmal mit und einmal ohne den Einsatz von WaveNet demonstrieren. Tatsächlich ist leicht zu hören, dass die Varianten mit WaveNet hörbar ausgewogener klingen.

WaveNet weicht dabei laut DeepMind von traditionellen TTS-Techniken (Text-to-Speech) ab, da man sich nicht nur auf eine feste Datenbank mit Sprachsamples von Sprechern verlassen muss, sondern über maschinelles Lernen die typische Struktur von Sprache replizieren kann und die passenden Wellenformen generiert. Auf diese Weise lässt sich die Betonung in ganzen Sätzen besser anpassen, als beim bloßen Zusammensetzen von Bausteinen einer Sprachdatenbank. Wie man sich vorstellen kann, hat diese Technik aber noch zu Anfang sehr viel Rechenzeit benötigt und hohe Kosten verursacht. Mittlerweile ist man aber so weit, dass WaveNet für den Google Assistant in den Einsatz gehen kann. Es handelt sich sogar um das erste Produkt, das Googles neue TPU-Cloud-Infrastruktur nutzt.

Um eine Sekunde an Sprachwiedergabe zu erzeugen, benötigt WaveNet aktuell 50 Millisekunden. Die Wellenformen nutzt 24.000 Samples pro Sekunde und kann mit einer Auflösung von 16-bit arbeiten, also in CD-Qualität. Dass die Ergebnisse von Zuhörern besser bewertet werden, zeigen die obigen Mean-Opinion-Scores (MOS). Man darf gespannt sein, wann Google das Modell nun auch auf weitere Sprachen überträgt. Die Ergebnisse, die es bisher in englischer Sprache zu hören gibt, sprechen im wahrsten Sinne des Worte fürs sich.