Pour gérer vos consentements :
Categories: Data-stockage

Translatotron : Google cherche à traduire la parole sans passer par le texte

Dans quelle mesure un ordinateur peut-il traduire la parole dans une langue étrangère sans transcrire la voix en texte ?

Les travaux que Google a menés sur ce front ont abouti à un système expérimental baptisé Translatotron. Il s’appuie sur un réseau de neurones artificiels avec mécanisme d’attention.

Supprimer l’étape intermédiaire de transcription permet de gagner en rapidité et de minimiser les risques d’erreurs. Mais aussi de mieux restituer les mots qui n’ont pas besoin d’être traduits (par exemple, les noms propres)… et d’éventuellement préserver les caractéristiques de la voix du locuteur.

Google avait publié, en 2017, un rapport d’étude qui tendait à prouver la supériorité de ces algorithmes « de bout en bout » sur les algorithmes traditionnels fonctionnant « en cascade » (transcription de la parole en texte, traduction dans la langue cible, puis synthèse vocale).

C’est moins évident dans la pratique. Notamment parce que réduire le processus à une seule étape nécessite davantage d’entraînement que de le diviser en plusieurs tâches. La quantité de données vocales disponibles est par ailleurs limitée.

Quand Guillermo devient William

Le réseau neuronal de Translatotron représente, en entrée comme en sortie, la parole sous forme de spectrogramme.
Deux composantes lui sont associées. D’une part, un vocodeur qui convertir les spectrogrammes cibles en ondes temporelles. De l’autre, un encodeur qui permet optionnellement de maintenir les caractéristiques de la voix d’origine.

Google a observé des comportements particuliers susceptibles de résulter de biais. Par exemple avec le prénom Guillermo : alors que Translatotron le conserve sous cette forme en passant de l’espagnol vers l’anglais, un algorithme « traditionnel » le traduit en « William ».
La prononciation des sons n’est en outre pas toujours bien gérée, lorsqu’elle diffère entre deux langues.

Photo d’illustration © Chukcha – Shutterstock.com

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

2 heures ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago