Pour gérer vos consentements :
Categories: Data-stockage

Lire sur les lèvres : il y a une intelligence artificielle pour ça

L’intelligence artificielle, meilleure que l’humain pour lire sur les lèvres ?

L’expérience WLAS, pour « Watch, Listen, Attend and Spell », le confirme.

Google DeepMind et l’université d’Oxford l’ont menée à partir de quatre émissions de la chaîne britannique BBC.

Ils ont d’abord entraîné leur AI avec des programmes diffusés entre 2010 et 2015.

L’algorithme ainsi préparé a été testé sur des retransmissions datées d’entre mars et septembre 2016.

Résultat : le système WLAS a reconnu du premier coup 46,8 % des mots prononcés par les personnes présentes à l’image.

Une bonne partie des erreurs tient à peu de chose ; généralement, de légères déformations pour certains mots, comme l’absence d’un S à la fin d’un mot, élément difficile à déceler dans de nombreux cas en anglais.

Soumis à la même tâche sur un échantillon de 200 vidéos, un expert affichant environ 10 années d’expérience a reconnu sans erreur moins d’un quart des mots prononcés – même en ayant le droit à plusieurs visionnages.

Les ambiguïtés de la lecture labiale ne pouvant être levées que par une bonne compréhension du contexte, les chercheurs considèrent qu’il s’agit d’une avancée importante. Notamment du fait que leur IA s’appuie sur un jeu de données très étendu : un corpus de 17 500 mots, contre 51 mots pour l’expérience GRID, elle aussi menée par l’université d’Oxford et qui avait également dépassé les performances humaines.

GRID se basait, en outre, sur des phrases reproduisant un modèle bien défini, quand les émissions de la BBC renferment des discours réels prononcés par différents individus avec des structures de phrase très variées.

« Une machine qui peut lire sur les lèvres ouvre la voie à de multiples applications : dictée d’instructions ou de messages à un téléphone dans un environnement bruyant, transcription ou doublage de films sans son, compréhension de discours où plusieurs personnes s’expriment ou, plus généralement, amélioration de la performance de la reconnaissance vocale », écrivent les chercheurs Joo Son Chung, Andrew Senior, Oriol Vinyals et Andrew Zisserman dans leur étude (PDF, 12 pages).

Comme le souligne Silicon.fr, avant de s’attaquer au déchiffrement des phrases prononcées par les personnes filmées, les chercheurs ont également exploité le machine learning pour préparer les données. L’enjeu ? Recaler le son et l’image sur certaines vidéos, une étape indispensable pour assurer la phase d’apprentissage de WLAS.

Recent Posts

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

3 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago

Microsoft Teams : comment fonctionne le double usage « pro-perso »

Microsoft Teams évolue dans une version « unifiée » qui permet de combiner les usages…

1 mois ago