Pour gérer vos consentements :
Categories: Cloud

WaveNet de Google : la synthèse vocale portée aux nues grâce au machine learning

AlphaGo, le programme mis au point par DeepMind (filiale de Google spécialisée dans l’intelligence artificielle), a montré toute l’étendue de ses capacités face à des champions du jeu de Go.

C’est désormais au tour de WaveNet de faire l’article de la technologie de DeepMind.

A l’instar du programme AlphaGo, WaveNet repose entièrement sur l’intelligence artificielle. Plus précisément, il puise son potentiel dans sa capacité d’apprendre grâce au machine learning (apprentissage automatique).

C’est de cette manière que WaveNet est capable de repousser encore un peu plus les limites de la synthèse vocale.

De l’Amiga à Alexa

En dévoilant les résultats obtenus avec son programme, Google parle d’une amélioration de 50 %, à la fois en anglais et en mandarin, des résultats obtenus par rapport aux technologies habituelles de synthèse vocale.

Il s’agit d’une synthèse vocale réalisée par concaténation de mots. Un procédé actuellement utilisé par les principaux assistants vocaux du marché, tels que Cortana (Microsoft), Siri (Apple), Google Assistant ou encore Alexa (Amazon).

Il y a également la modélisation paramétrique, une technique historique entièrement synthétique utilisée notamment sur les ordinateurs disposant d’une faible quantité de mémoire. On pense à l’Amiga 500, qui disposait d’une telle synthèse vocale aux accents robotiques et artificielle.

Les progrès dans l’informatique et le HPC (High Performance Computing) sont à l’origine d’avancées spectaculaires symbolisées par WaveNet.

L’application est alimentée en fichiers audio au format RAW (Real Audio Wrapper), c’est-à-dire n’ayant subi aucune compression. Il s’agit de sons produits par des voix humaines en anglais et en mandarin. WaveNet est capable de traiter et d’ingurgiter 16 000 échantillons par seconde (voire plus).

Il peut ensuite générer du son échantillon par échantillon. C’est sur la base des statistiques qu’il prédit l’échantillon suivant le plus probable.

De quoi faire de WaveNet un expert en imitation de voix humaine. Mais on comprend aisément que cela nécessite une puissance de calcul substantielle pour parvenir à de tels résultats.

Des sons et des voix

Incompatible avec une arrivée imminente dans nos terminaux mobiles ? Pas forcément, puisque, sur la base du cloud computing, Google pourrait mettre à disposition des serveurs spécialisés pour y déporter les calculs.

Le potentiel est énorme : WaveNet peut apprendre et reproduire n’importe quelle voix humaine, là où il fallait une nouvelle librairie d’échantillons pour changer la voix d’un assistant par exemple.

WaveNet ne se contente pas d’exceller dans l’exercice de la reproduction de voix humaines. Il est aussi capable, de la même manière, de modéliser n’importe quel type de son, comme celui produit par un instrument de musique, tel que le piano.

Pour rappel, DeepMind est entré dans l’escarcelle de Google en janvier 2014. La firme de Mountain View aurait mis, à l’époque, un demi-milliard de dollars pour s’offrir la start-up britannique spécialisée dans les technologies d’intelligence artificielle.

Il faut dire que le sillon de l’IA avait déjà été creusé par Google dès 2012 avec le recrutement de Ray Kurzweil, un chercheur américain qui s’est illustré en créant de nombreuses start-up dans les domaines de la reconnaissance optique de caractères et vocale. Au sein de Google, il chapeaute les travaux dans l’apprentissage automatique et l’interprétation du langage naturel, un complément au TTS (Text-to-Speech), autrement dit la synthèse vocale.

(Crédit photo : @DeepMind/Google)

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

16 heures ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago