Reconnaissance optique : Google sort une version open source du logiciel Tesseract

Google a de nouveau publié une version open source d’un logiciel de reconnaissance optique de caractères (OCR, optical character recognition) initialement développé par HP. Le programme Tesseract a été développé par le constructeur informatique américain dans la période 1985-1995. A la fin de son développement, ce programme s’est illustré lors d’une compétition organisée par l’université de Las Vegas (UNLV) dans le Nevada, en se hissant sur le podium des meilleurs logiciels OCR.

Dans un communiqué, Google a déclaré que ce projet de technologie OCR s’intégrait parfaitement à la stratégie du groupe qui consiste à fournir des informations en ligne, anticipant ainsi les doutes que pourraient avoir certains sur le bien-fondé d’une telle initiative.

« Notre seule vocation est de mettre des informations à la disposition des utilisateurs. Lorsque ces informations sont uniquement disponibles au format papier, l’OCR est l’unique moyen de convertir les pages du document en texte exploitable pour l’indexation », écrit Eric Case dans le blog officiel de Google, Code Blog.

HP a cessé ses travaux de développement de Tesseract en 1995 et a publié le code de l’Information Science Research Institute à l’UNLV il y a quelques années afin de le développer en open source. « C’est avec plaisir que l’UNLV a accueilli notre proposition, mais ils ont demandé notre aide pour corriger quelques bugs qui se sont glissé depuis 1995 », ajoute Eric Case.

« Nous avons corrigé les défauts les plus évidents et avons décidé il y a quelques mois que le programme OCR Tesseract était suffisamment stable pour être republié en open source. »
Google avait initialement prévu de faire profil bas sur ce lancement, mais l’annonce de cette relance est accompagnée d’une invitation adressée aux ingénieurs afin qu’ils collaborent à ce projet.

Le logiciel est actuellement uniquement disponible en anglais. Il n’inclut aucun module d’analyse de disposition des pages, a du mal à gérer les gammes de gris et les documents couleur et ne répond pas aux critères de précision des meilleurs programmes OCR actuellement disponibles dans le commerce. « Mais pour autant que l’on sache, Tesseract est de loin le plus précis des programmes OCR open source actuels, et ce en dépit de ses lacunes », conclut Eric Case.

Traduction d’un article de Vnunet.com en date du 5 septembre 2006