Twitter donne un coup de fouet à l’exploitation de données sociales

Accéder quasi instantanément à tous les contenus publiés sur Twitter depuis l’ouverture de la plate-forme de micro-blogging en 2006 ? Il y a une API pour ça.

Lancé cette semaine après des expérimentations en association avec un cercle restreint de partenaires parmi lesquels Brandwatch, NetBase et Sprout Social, ce connecteur a été développé par les équipes de Gnip.

Cette start-up du Colorado, spécialisée dans l’exploitation de données sociales, était passée dans le giron de Twitter en 2014. Depuis lors, sa mission n’a pas changé : faciliter, pour les entreprises, l’accès aux tweets en vue d’une analyse à des fins marketing, publicitaires, de veille ou de gestion de la relation client.

La technologie permettait jusqu’alors de remonter jusqu’à 30 jours en arrière. Depuis le 11 août, elle donne accès à 9 ans d’archives, depuis le premier tweet posté le 21 mars 2006 par Jack Dorsey, cofondateur du réseau social.

Du point de vue technique, cette API RESTful accepte les requêtes écrites dans la syntaxe déjà exploitée par l’outil PowerTrack de Gnip. Les tweets sont classés du plus récent au plus ancien, sachant que les affichages sont limités à 31 jours ou 500 résultats (une commande « suivant » est disponible pour passer au prochain jeu de données).

En consultant la documentation technique de cette « Full Archive API », on constate qu’elle prend en charge la plupart des opérateurs associés à PowerTrack. On citera from:, retweets_of:, has:mentions: ou encore has:images.

Dans l’état actuel, les caractères spéciaux sont normalisés. Ce qui peut poser des problèmes dans certaines langues comme l’espagnol, où une simple lettre accentuée peut modifier le sens d’un mot (on parle d’accent grammatical, par opposition à l’accent tonique).

De même, lors d’une recherche par phrases (insérées entre guillemets, selon la syntaxe de l’API), les signes de ponctuation sont traités comme des espaces : « Hello, World » est traité de la même façon que « Hello. World ».

On notera par ailleurs cette petite subtilité sur la recherche d’adresses Internet : il faut absolument fournir des mots ou groupes de mots « complets ». Concrètement, pour l’URL https://www.google.com/doodles, la requête url_contains:«google.com» est valide, tout comme url_contains:«doodles»… mais pas url_contains:«oogle.com», ni url_contains:«google.com/doo».

La plupart du temps, les tweets sont affichés tels qu’ils existent au moment de la requête. Dans certains cas, par exemple avec les opérateurs from, to et @, ils peuvent être retournés tels qu’ils étaient au moment de leur publication (ce qui, ici, s’explique par le fait que le nom d’utilisateur a pu changer).

Le maximum de requêtes autorisées est fixé à 120 par minute. Twitter estime ainsi qu’une heure est nécessaire pour analyser 1 millions de tweets répartis de manière plus ou moins égale sur l’espace d’un an (on peut toutefois aller plus rapidement en parallélisant les tâches).

Crédit photo : pryzmat – Shutterstock.com