Translatotron : Google cherche à traduire la parole sans passer par le texte

Data-stockage
translatotron

Google fait la lumière sur Translatotron, système expérimental destiné à traduire la parole dans une langue étrangère sans transcrire la voix en texte.

Dans quelle mesure un ordinateur peut-il traduire la parole dans une langue étrangère sans transcrire la voix en texte ?

Les travaux que Google a menés sur ce front ont abouti à un système expérimental baptisé Translatotron. Il s’appuie sur un réseau de neurones artificiels avec mécanisme d’attention.

Supprimer l’étape intermédiaire de transcription permet de gagner en rapidité et de minimiser les risques d’erreurs. Mais aussi de mieux restituer les mots qui n’ont pas besoin d’être traduits (par exemple, les noms propres)… et d’éventuellement préserver les caractéristiques de la voix du locuteur.

Google avait publié, en 2017, un rapport d’étude qui tendait à prouver la supériorité de ces algorithmes « de bout en bout » sur les algorithmes traditionnels fonctionnant « en cascade » (transcription de la parole en texte, traduction dans la langue cible, puis synthèse vocale).

C’est moins évident dans la pratique. Notamment parce que réduire le processus à une seule étape nécessite davantage d’entraînement que de le diviser en plusieurs tâches. La quantité de données vocales disponibles est par ailleurs limitée.

Quand Guillermo devient William

Le réseau neuronal de Translatotron représente, en entrée comme en sortie, la parole sous forme de spectrogramme.
Deux composantes lui sont associées. D’une part, un vocodeur qui convertir les spectrogrammes cibles en ondes temporelles. De l’autre, un encodeur qui permet optionnellement de maintenir les caractéristiques de la voix d’origine.

translatotron-architecture

Google a observé des comportements particuliers susceptibles de résulter de biais. Par exemple avec le prénom Guillermo : alors que Translatotron le conserve sous cette forme en passant de l’espagnol vers l’anglais, un algorithme « traditionnel » le traduit en « William ».
La prononciation des sons n’est en outre pas toujours bien gérée, lorsqu’elle diffère entre deux langues.

Photo d’illustration © Chukcha – Shutterstock.com

Lire aussi :

Lire la biographie de l´auteur  Masquer la biographie de l´auteur