Pour gérer vos consentements :

Twitter donne un coup de fouet à l’exploitation de données sociales

Accéder quasi instantanément à tous les contenus publiés sur Twitter depuis l’ouverture de la plate-forme de micro-blogging en 2006 ? Il y a une API pour ça.

Lancé cette semaine après des expérimentations en association avec un cercle restreint de partenaires parmi lesquels Brandwatch, NetBase et Sprout Social, ce connecteur a été développé par les équipes de Gnip.

Cette start-up du Colorado, spécialisée dans l’exploitation de données sociales, était passée dans le giron de Twitter en 2014. Depuis lors, sa mission n’a pas changé : faciliter, pour les entreprises, l’accès aux tweets en vue d’une analyse à des fins marketing, publicitaires, de veille ou de gestion de la relation client.

La technologie permettait jusqu’alors de remonter jusqu’à 30 jours en arrière. Depuis le 11 août, elle donne accès à 9 ans d’archives, depuis le premier tweet posté le 21 mars 2006 par Jack Dorsey, cofondateur du réseau social.

Du point de vue technique, cette API RESTful accepte les requêtes écrites dans la syntaxe déjà exploitée par l’outil PowerTrack de Gnip. Les tweets sont classés du plus récent au plus ancien, sachant que les affichages sont limités à 31 jours ou 500 résultats (une commande « suivant » est disponible pour passer au prochain jeu de données).

En consultant la documentation technique de cette « Full Archive API », on constate qu’elle prend en charge la plupart des opérateurs associés à PowerTrack. On citera from:, retweets_of:, has:mentions: ou encore has:images.

Dans l’état actuel, les caractères spéciaux sont normalisés. Ce qui peut poser des problèmes dans certaines langues comme l’espagnol, où une simple lettre accentuée peut modifier le sens d’un mot (on parle d’accent grammatical, par opposition à l’accent tonique).

De même, lors d’une recherche par phrases (insérées entre guillemets, selon la syntaxe de l’API), les signes de ponctuation sont traités comme des espaces : « Hello, World » est traité de la même façon que « Hello. World ».

On notera par ailleurs cette petite subtilité sur la recherche d’adresses Internet : il faut absolument fournir des mots ou groupes de mots « complets ». Concrètement, pour l’URL https://www.google.com/doodles, la requête url_contains:«google.com» est valide, tout comme url_contains:«doodles»… mais pas url_contains:«oogle.com», ni url_contains:«google.com/doo».

La plupart du temps, les tweets sont affichés tels qu’ils existent au moment de la requête. Dans certains cas, par exemple avec les opérateurs from, to et @, ils peuvent être retournés tels qu’ils étaient au moment de leur publication (ce qui, ici, s’explique par le fait que le nom d’utilisateur a pu changer).

Le maximum de requêtes autorisées est fixé à 120 par minute. Twitter estime ainsi qu’une heure est nécessaire pour analyser 1 millions de tweets répartis de manière plus ou moins égale sur l’espace d’un an (on peut toutefois aller plus rapidement en parallélisant les tâches).

Crédit photo : pryzmat – Shutterstock.com

Recent Posts

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

2 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

3 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

4 semaines ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago

Microsoft Teams : comment fonctionne le double usage « pro-perso »

Microsoft Teams évolue dans une version « unifiée » qui permet de combiner les usages…

1 mois ago