La littérature française s’affiche sur le Web

Régulations

Bibliopolis et Radio-France diffusent gratuitement une centaine d’oeuvres classiques françaises. De l’art de valoriser l’écrit grâce aux nouvelles technologies.

Inauguré voilà environ une semaine, le site Biblionet compte déjà ses fidèles. Près de 1000 internautes s’y connecteraient déjà chaque jour, pour y consulter l’une des 101 oeuvres diffusées gratuitement au format plein texte. De Zola à Molière en passant par Voltaire, pas moins de 64 auteurs couvrant la période du Moyen-Age au XXème siècle sont accessibles en quelques clics. Compagnon indispensable des sites Internet, un moteur de recherche relativement sobre permet de mettre le doigt sur n’importe quel mot-clé. Autrement dit, un élève devient capable de retrouver et sélectionner les passages intéressants d’un roman pour illustrer un devoir scolaire. En effet, le copier-coller n’est pas interdit. Les auteurs des oeuvres étant morts depuis plus de 70 ans, celles-ci sont passées dans le domaine public. Quant aux flâneurs, ils pourront toujours découvrir quel chef-d’oeuvre aura évoqué leur ville ou leur recette gastronomique préférée.

Lancé par l’éditeur Bibliopolis en partenariat avec Radio-France, Biblionet devrait s’étoffer progressivement. « D’ici quelques mois, on pourra aller jusqu’à 200 textes », explique Jean-Pierre Sakoun, Pdg de Bibliopolis. Cet éditeur spécialisé dans les ouvrages littéraires au format numérique ne prétend toutefois pas à l’exhaustivité. « C’est avant tout un site de découverte et de curiosité, qui montre comment l’électronique devient un nouveau mode de diffusion des savoirs », poursuit-il.

Le site fait appel aux bases d’ouvrages numérisés de Bibliopolis, qui revendique le catalogue de livres numérisés en plein texte « le plus volumineux qui soit, avec 3000 ouvrages ». Plus souples et moins volumineux que les fichiers en images générés par un scanner, ces documents électroniques en format texte sont indispensables si l’on souhaite utiliser un moteur de recherche. Or tout l’intérêt du numérique est là. Un texte numérisé peut être imprimé voire personnalisé à la demande et s’ouvre aux recherches les plus poussées. Bibliopolis propose en bibliothèque à l’intention des enseignants et des chercheurs universitaires le moteur TREVI, dont les paramètres et les filtres logiques accélèrent la recherche par thème, par courant littéraire, etc.

L’interactivité et la diffusion électronique sur Internet sont évidemment deux intérêts majeurs liés aux textes numérisés. Reste qu’on ne génère pas un tel volume de données de la même manière que l’on numériserait son courrier avec un scanner. L’opération s’effectue dans le cadre d’une chaîne industrielle au cahier des charges très serré. « On ne travaille pas avec la reconnaissance de texte OCR, cela ne marche pas », avertit de facto Jean-Pierre Sakoun. « Avec une reconnaissance à 98%, vous générez 2 erreurs pour 100 caractères. Soit 40 erreurs par page pour un roman au format habituel. Le temps de correction devient prohibitif et supérieur au temps nécessaire pour saisir les textes manuellement ». Résultat, les textes sont récupérés sous différentes formes (microfilms, photocopie ou sous forme d’images scannées à l’exemple d’un partenariat avec la Bibliothèque de la ville de Lyon) et transmis pour saisie à des sous-traitants, qui doivent respecter une mise en forme bien précise. Ces derniers panachent parfois l’OCR et la saisie manuelle, afin de comparer le résultat homme/machine. « Il nous faut une qualité à 99,99%, soit 1 erreur pour 10000 caractères », poursuit le patron de Bibliopolis. En dessous de ce seuil, qui correspond à la qualité des livres du commerce, le risque est trop grand qu’un moteur effectuant plus tard une recherche par chaîne de caractère ne « loupe » un mot important mais mal orthographié.

L’éditeur explique avoir fait numériser 72000 pages par mois en 1998. Soit un rythme mensuel de 200 romans en plein texte. Lesquels pourront être proposés aux universitaires ou intégrés dans de futurs supports interactifs : d’ici quelques semaines, Bibliopolis et Radio-France lanceront neuf CD-Rom destinés aux élèves et aux enseignants. On pourra se procurer pour environ 300 francs TTC l’intégralité de La Fontaine, le théâtre de Molière, Racine, Corneille et retrouver les textes de Stendhal, Flaubert, Balzac et Zola. Destinés au « grand public cultivé », ces titres seront agrémentés d’outils (chronologie, réalisation d’un cours pour les enseignants ou d’un exposé) mais n’auront pas la prétention d’éveiller les grandes masses à la littérature. Dans une approche plus large, Bibliopolis lancera le 8 novembre le site pédagogique Lili, pour « Littérature en « ligne. Enfin, l’intelligence artificielle sera à l’honneur à partir du prochain trimestre 2000. Le moteur de recherche TREVI deviendra capable d’obéir à des requêtes conceptuelles, en renvoyant par exemple un document faisant la différence entre le siège militaire et celui qui sert à s’asseoir. De nouveaux instruments viendront conseiller l’utilisateur pour affiner sa recherche. Intégrés sur le site Biblionet, ils devraient renforcer l’intérêt des textes numériques qui promettent de révolutionner l’utilisation de la littérature, rien de moins.

Pour en savoir plus :

* http://minotaure.bibliopolis.fr:7999/

* http://www.bibliopolis.fr/

* http://www.radio-france.fr/