Googles neue KI kann menschliche Sprache fast perfekt nachahmen

Letztes Jahr teilte das  künstliche Intelligenz (KI) Forschungsunternehmen DeepMind Details über WaveNet, ein „Deep Neuronal Network“, das zur Synthese realistischer menschlicher Sprache verwendet wird. Jetzt wird eine verbesserte Version der Technologie für die Verwendung mit Google Assistant ausgerollt.

Ein System zur Sprachsynthese – auch bekannt als Text-to-Speech (TTS), verwendet in der Regel eine von zwei Techniken.

Concatenative TTS beinhaltet das Zusammensetzen von Klumpen von Aufnahmen eines Sprechers. Der Nachteil dieser Methode besteht darin, dass die Audiobibliotheken ersetzt werden müssen, wenn Upgrades oder Änderungen vorgenommen werden.

Die andere Technik, parametrische TTS, verwendet einen Satz von Parametern, um computergenerierte Sprache zu produzieren, aber diese Sprache kann manchmal unnatürlich und roboterhaft klingen.

WaveNet dagegen produziert Wellenformen mit Hilfe eines „Convolutional Neural Network„.

Convolutional Neural Network

Grafik : Deepmind.com

Zunächst wurde eine große Anzahl von Sprachproben verwendet, um die Plattform zu trainieren, Stimmen zu synthetisieren, wobei berücksichtigt wurde, welche Wellenformen realistisch klangen und welche nicht. Dies gab dem Sprachsynthesizer die Fähigkeit, natürliche Intonation zu erzeugen, sogar mit Details wie Lippenklopfen. Abhängig von den Samples, die in das System eingespeist werden, würde es einen einzigartigen „Akzent“ entwickeln, d. h. es könnte verwendet werden, um eine beliebige Anzahl von unterschiedlichen Stimmen zu erzeugen, wenn verschiedene Datensätze gefüttert werden.

Die größte Einschränkung von WaveNet war die Tatsache, dass es anfänglich eine beträchtliche Menge an Rechenleistung benötigte und nicht sehr schnell war. Es dauerte eine Sekunde, um. 0,2 Sekunden Audio zu erzeugen.

Nach der Verbesserung des Systems in den letzten 12 Monaten haben die Ingenieure von DeepMind das WaveNet so weit optimiert, dass es nun eine Rohwellenform erzeugen kann, die in nur 50 Millisekunden  für eine Sekunde braucht. Darüber hinaus wurde die Auflösung jedes Samples von 8 Bit auf 16 Bit erhöht, was bei Tests mit menschlichen Zuhörern zu höheren Werten beiträgt.

Durch diese Verbesserungen kann das System nun in Produkte wie den Google Assistant integriert werden.

Wavenet Wellenform

Grafik : Deepmind.com

 

WaveNet wird nun für die Generierung der englischen und japanischen Stimmen für den Google Assistant auf allen Plattformen verwendet. Da das System in der Lage ist, spezialisierte Stimmen zu erzeugen, die auf beliebigen Samples basieren, sollte Google in der Lage sein, mit WaveNet realistisch klingende menschliche Sprache für andere Sprachen und Dialekte zu synthetisieren.

Sprachschnittstellen werden immer häufiger über alle Formen des Rechnens verbreitet, doch bisher schreckten viele Nutzer vor ihnen zurück, weil sie so künstlich klangen. DeepMind’s Bemühungen, diese Technologie zu verbessern, könnten zu einer breiteren Akzeptanz führen und werden sicherlich dazu beitragen, die vorhandenen Erfahrungen zu verbessern.

Quellen: DeepMindarXiv

Veröffentlicht in Künstliche Intelligenz.

Sammy Zimmermanns

Hallo, ich schreibe hier im Blog.