Pour gérer vos consentements :

Bots et réseaux sociaux : ces twittos qui sont des algos

Jusqu’à 15 % des comptes Twitter pourraient être… des robots.

C’est l’un des principaux enseignements* qu’on peut tirer à la lecture d’une étude – document PDF, 11 pages – conduite par les dénommés Onur Varol, Clayton A. Davis, Filippo Menczer et Alessandro Flammini.

Ces doctorants et professeurs au Center for Complex Networks and Systems Research de l’université d’Indiana à Bloomington se sont associés à Emilio Ferrara.

Ce dernier, enseignant à l’institut des Sciences informatiques de l’université de Californie du Sud, avait déjà mené des recherches sur la thématiques des « bots sociaux », définis comme des comptes « contrôlés par un algorithme qui crée du contenu et des interactions ». Il avait notamment différencié ceux dits « utiles » (pour relayer de l’information, coordonner des activités…) de ceux dits « malveillants » (utilisés à des fins de propagande, de manipulation de l’opinion publique…).

La distinction est reprise dans la présente étude, qui détaille un framework destiné à identifier les bots sur la base de 1 150 signaux répartis en six catégories.

Algo contre algo

Les cinq chercheurs ont décidé de se concentrer sur les comptes anglophones. Ils ont opté pour une approche « hybride », entraînant leurs algorithmes de machine learning avec, d’un côté, une liste publique de 15 000 robots détectés grâce à la technique du pot de miel et de l’autre, une classification établie « à la main », par quatre volontaires.

N’ont été retenus, sur la base concernée, que les comptes « réellement actifs », au sens qu’ils avaient publié au moins 200 tweets, dont a minima 90 pendant les trois mois qu’a duré la phase de relevés, amorcée en octobre 2015.

Outre les millions de tweets passés à la moulinette, les chercheurs ont récupéré des informations sur les comptes en eux-mêmes (ancienneté, nombre de tweets et d’abonnés, longueur de la biographie, cohérence du pseudo, etc.).

Ils ont aussi intégré, dans leur modèle d’intelligence artificielle, des éléments allant de l’intervalle de temps entre deux retweets à la présence de mots-clés particuliers en passant par la portée des messages publiés.

Une grande famille

Les conclusions ? Si certains marqueurs tels qu’une image de profil générique ou le retweet systématique d’un autre compte témoignent quasiment à tous les coups de l’existence d’un robot, même les méthodes de détection jugées les plus performantes n’échappent pas aux « faux positifs ». L’IA a, en l’occurrence, tendance à voir des bots dans les comptes corporate gérés par plusieurs personnes, ainsi que dans ceux qui retweetent des contenus en plusieurs langues.

C’est sans compter la complexification des bots, qui présentent « une grande diversité de comportements, de motivations et de faiblesses ». Les plus sophistiqués se retweetent rarement entre eux et mentionnent peu les comptes « humains ». Ils font, en revanche, preuve d’efficacité dans le ciblage de « groupes d’intérêt ».

Le contenu des tweets et le sentiment exprimé restent des indicateurs relativement pertinents pour trancher les cas les plus tangents. Reste toutefois le problème des « cyborgs », nom donné aux comptes gérés partiellement par des humains et exploités entre autres à des fins de propagande terroriste…

* Ferrara et. al. annoncent une fourchette de 9 à 15 %. Ils considèrent que le taux pourrait être sous-estimé, vu le niveau actuel de sophistication des bots par rapport à ceux recensés dans la base publique exploitée pour l’étude. En 2014, dans un document communiqué au gendarme américain des marchés financiers, Twitter donnait un intervalle de 5 à 8,5 %.