Face à l’explosion de la désinformation sur les réseaux sociaux, l’Université Ben-Gurion du Néguev a développé une méthode d’apprentissage automatique qui cible les sources de fausses informations plutôt que les articles individuels — avec des résultats qui surpassent les approches existantes de 69%.

Les théories du complot et les fausses informations prolifèrent sur les réseaux sociaux avec une vitesse et une ampleur qui dépassent largement les capacités humaines à les vérifier — en particulier lors des grandes périodes électorales. C’est dans ce contexte que des chercheurs de l’Université Ben-Gurion du Néguev ont développé une méthode concrète pour aider les vérificateurs de faits à tenir le rythme face aux volumes croissants de désinformation sur ces plateformes.

Le problème : des fact-checkers submergés

« Le problème aujourd’hui avec la prolifération des fausses nouvelles, c’est que les fact-checkers sont débordés », explique le Dr Nir Grinberg, qui a dirigé l’équipe de recherche avec le Professeur Rami Puzis, tous deux du Département d’ingénierie des logiciels et des systèmes d’information de l’Université Ben-Gurion. « Ils ne peuvent pas tout vérifier… et nous savons peu de choses sur le degré de succès des fact-checkers pour identifier le contenu le plus important à vérifier. »

C’est ce constat qui les a poussés à développer une approche par apprentissage automatique capable d’aider les fact-checkers à orienter leur attention plus efficacement et à améliorer leur productivité.

La solution : cibler les sources, pas les articles

La différence fondamentale entre l’approche de BGU et les méthodes courantes réside dans l’unité d’analyse choisie. Plutôt que de surveiller des articles ou des publications individuels — une tâche potentiellement infinie face au volume de contenu produit chaque jour — l’équipe a développé des modèles basés sur le suivi des sources de fausses informations elles-mêmes.

Cette approche repose sur l’observation que les sources peu fiables ont tendance à produire de la désinformation de manière récurrente et prévisible. En identifiant et en modélisant ces sources — leur audience, leur comportement au fil du temps, leurs caractéristiques structurelles — il devient possible de prédire quels nouveaux contenus méritent une vérification prioritaire, sans devoir traiter chaque article séparément.

Des résultats qui surpassent largement les méthodes existantes

Les modèles basés sur l’audience développés par l’équipe de BGU ont surpassé l’approche plus courante consistant à surveiller qui partage les désinformations, et ce par des marges considérables : 33% de mieux en examinant les données historiques, et 69% de mieux en surveillant les sources au fur et à mesure qu’elles émergent dans le temps.

Plus remarquable encore : les auteurs ont démontré que leur approche peut maintenir le même niveau de précision dans l’identification des sources de fausses nouvelles tout en nécessitant moins d’un quart des coûts de fact-checking habituels. Autrement dit, pour le même résultat, les ressources humaines et financières mobilisées peuvent être réduites de plus de 75% — une économie considérable pour les organisations de presse et les plateformes qui investissent dans la vérification des faits.

Les résultats de l’équipe ont été publiés dans les actes de la 30e Conférence ACM SIGKDD sur la découverte de connaissances et l’extraction de données — l’une des conférences de référence en matière d’apprentissage automatique et d’intelligence artificielle appliquée.

Dans un environnement informationnel où la désinformation est devenue une arme géopolitique autant qu’un phénomène social, disposer d’outils capables d’identifier les sources problématiques de façon automatisée, rapide et économique représente une avancée dont l’importance dépasse largement les laboratoires académiques.