Elysée 2007 : l’Ina va stocker les traces de la Web campagne

Mobilité

L’institut national de l’Audiovisuel a pour mission d’archiver sites et blogs
relatif à l’élection présidentielle.

80 millions d’URL, dont plus de 15 000 vidéos (hébergées pour près de 90% d’entre elles par Dailymotion). C’est le volume de liens et de documents Web que l’Institut national de l’audiovisuel (Ina) va conserver sur ses serveurs. Soit près de 700 Gigaoctets (Go) de stockage compressé et dédoublonné, dont plus de 300 Go pour les seules vidéos. Le tout dans un format spécifique de stockage (DAFF) développé par l’Ina.

Dans un communiqué de presse, l’INA décrit la méthodologie adoptée pour cette opération « aspirateur de la Web campagne » : l ‘opération de collecte des sites a commencé le 26 janvier. Mais, depuis le mois d’avril, la fréquence d’aspiration s’est accélérée : les 500 principales pages de chaque site ont été collectées jusqu’à 4 fois par jour. Une collecte plus profonde a été menée tous les trois jours environ et une récupération plus complète a été effectuée chaque mois. 220 versions de chaque site auront ainsi été captées en moyenne, à différentes profondeurs, au cours de la campagne.

L’analyse est quasi-continu pour les jours décisifs de l’élection présidentielle c’est à dire les deux dimanches qui ont servi de jours de scrutin (22 avril ? 6 mai). Toutes les 15 minutes, les pages d’accueil des sites ont été captées, afin de suivre l’évolution des tendances dès connaissance des premiers chiffres et sondages.

Pour parvenir à scruter le scrutin sous l’oeil du Web, l’Institut national de l’audiovisuel s’est appuyé sur les travaux de la société Réseaux, Territoires & Géographie de l’Information (RTGI). Celle-ci a défini le périmètre du corpus des sites et blogs relatifs aux élections présidentielles. L’échantillon est passé de 1400 sites en début de campagne à plus de 2200 à la mi-mars. RTGI en a profité pour mettre en place le site Observatoire-presidentielle.fr, qui présente une analyse cartographique et statistique des données recueillies.