Pour gérer vos consentements :
Categories: Cloud

Reconnaissance optique : Google sort une version open source du logiciel Tesseract

Google a de nouveau publié une version open source d’un logiciel de reconnaissance optique de caractères (OCR, optical character recognition) initialement développé par HP. Le programme Tesseract a été développé par le constructeur informatique américain dans la période 1985-1995. A la fin de son développement, ce programme s’est illustré lors d’une compétition organisée par l’université de Las Vegas (UNLV) dans le Nevada, en se hissant sur le podium des meilleurs logiciels OCR.

Dans un communiqué, Google a déclaré que ce projet de technologie OCR s’intégrait parfaitement à la stratégie du groupe qui consiste à fournir des informations en ligne, anticipant ainsi les doutes que pourraient avoir certains sur le bien-fondé d’une telle initiative.

« Notre seule vocation est de mettre des informations à la disposition des utilisateurs. Lorsque ces informations sont uniquement disponibles au format papier, l’OCR est l’unique moyen de convertir les pages du document en texte exploitable pour l’indexation », écrit Eric Case dans le blog officiel de Google, Code Blog.

HP a cessé ses travaux de développement de Tesseract en 1995 et a publié le code de l’Information Science Research Institute à l’UNLV il y a quelques années afin de le développer en open source. « C’est avec plaisir que l’UNLV a accueilli notre proposition, mais ils ont demandé notre aide pour corriger quelques bugs qui se sont glissé depuis 1995 », ajoute Eric Case.

« Nous avons corrigé les défauts les plus évidents et avons décidé il y a quelques mois que le programme OCR Tesseract était suffisamment stable pour être republié en open source. »
Google avait initialement prévu de faire profil bas sur ce lancement, mais l’annonce de cette relance est accompagnée d’une invitation adressée aux ingénieurs afin qu’ils collaborent à ce projet.

Le logiciel est actuellement uniquement disponible en anglais. Il n’inclut aucun module d’analyse de disposition des pages, a du mal à gérer les gammes de gris et les documents couleur et ne répond pas aux critères de précision des meilleurs programmes OCR actuellement disponibles dans le commerce. « Mais pour autant que l’on sache, Tesseract est de loin le plus précis des programmes OCR open source actuels, et ce en dépit de ses lacunes », conclut Eric Case.

Traduction d’un article de Vnunet.com en date du 5 septembre 2006

Recent Posts

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

2 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

3 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

4 semaines ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago

Microsoft Teams : comment fonctionne le double usage « pro-perso »

Microsoft Teams évolue dans une version « unifiée » qui permet de combiner les usages…

1 mois ago