WaveNet de Google : la synthèse vocale portée aux nues grâce au machine learning

Cloud

DeepMind témoigne à nouveau de son vaste potentiel. Cette fois-ci avec l’application WaveNet, capable de reproduire la voix humaine avec une fidélité jusqu’alors encore jamais atteinte.

AlphaGo, le programme mis au point par DeepMind (filiale de Google spécialisée dans l’intelligence artificielle), a montré toute l’étendue de ses capacités face à des champions du jeu de Go.

C’est désormais au tour de WaveNet de faire l’article de la technologie de DeepMind.

A l’instar du programme AlphaGo, WaveNet repose entièrement sur l’intelligence artificielle. Plus précisément, il puise son potentiel dans sa capacité d’apprendre grâce au machine learning (apprentissage automatique).

C’est de cette manière que WaveNet est capable de repousser encore un peu plus les limites de la synthèse vocale.

De l’Amiga à Alexa

En dévoilant les résultats obtenus avec son programme, Google parle d’une amélioration de 50 %, à la fois en anglais et en mandarin, des résultats obtenus par rapport aux technologies habituelles de synthèse vocale.

Il s’agit d’une synthèse vocale réalisée par concaténation de mots. Un procédé actuellement utilisé par les principaux assistants vocaux du marché, tels que Cortana (Microsoft), Siri (Apple), Google Assistant ou encore Alexa (Amazon).

Il y a également la modélisation paramétrique, une technique historique entièrement synthétique utilisée notamment sur les ordinateurs disposant d’une faible quantité de mémoire. On pense à l’Amiga 500, qui disposait d’une telle synthèse vocale aux accents robotiques et artificielle.

Les progrès dans l’informatique et le HPC (High Performance Computing) sont à l’origine d’avancées spectaculaires symbolisées par WaveNet.

L’application est alimentée en fichiers audio au format RAW (Real Audio Wrapper), c’est-à-dire n’ayant subi aucune compression. Il s’agit de sons produits par des voix humaines en anglais et en mandarin. WaveNet est capable de traiter et d’ingurgiter 16 000 échantillons par seconde (voire plus).

wavenet-samples

Il peut ensuite générer du son échantillon par échantillon. C’est sur la base des statistiques qu’il prédit l’échantillon suivant le plus probable.

De quoi faire de WaveNet un expert en imitation de voix humaine. Mais on comprend aisément que cela nécessite une puissance de calcul substantielle pour parvenir à de tels résultats.

Des sons et des voix

Incompatible avec une arrivée imminente dans nos terminaux mobiles ? Pas forcément, puisque, sur la base du cloud computing, Google pourrait mettre à disposition des serveurs spécialisés pour y déporter les calculs.

Le potentiel est énorme : WaveNet peut apprendre et reproduire n’importe quelle voix humaine, là où il fallait une nouvelle librairie d’échantillons pour changer la voix d’un assistant par exemple.

WaveNet ne se contente pas d’exceller dans l’exercice de la reproduction de voix humaines. Il est aussi capable, de la même manière, de modéliser n’importe quel type de son, comme celui produit par un instrument de musique, tel que le piano.

Pour rappel, DeepMind est entré dans l’escarcelle de Google en janvier 2014. La firme de Mountain View aurait mis, à l’époque, un demi-milliard de dollars pour s’offrir la start-up britannique spécialisée dans les technologies d’intelligence artificielle.

Il faut dire que le sillon de l’IA avait déjà été creusé par Google dès 2012 avec le recrutement de Ray Kurzweil, un chercheur américain qui s’est illustré en créant de nombreuses start-up dans les domaines de la reconnaissance optique de caractères et vocale. Au sein de Google, il chapeaute les travaux dans l’apprentissage automatique et l’interprétation du langage naturel, un complément au TTS (Text-to-Speech), autrement dit la synthèse vocale.

(Crédit photo : @DeepMind/Google)

Lire aussi :