L'intelligence artificielle au service de la lutte contre l'exploitation sexuelle sur internet

Les travaux autour de la conception d’outils d’IA pour limiter les cas de harcèlements ou de trafics en ligne tendent à se multiplier à l’avenir. Un exemple concret est celui du projet STOP qui vise à analyser les publications twitter pour limiter les risques de suicide. L’Institut québécois d’intelligence artificielle (Mila) a conçu un algorithme capable de détecter des activités ou des faits pouvant mettre en lumière les cas d’exploitation sexuelle en ligne et intervenir en conséquence. L’Université de Carnegie Mellon avec son école de science informatique et l’Université McGill ont participé à son élaboration.

Tenter de trouver une solution intelligente pour lutter contre le fléau de l’exploitation sexuelle

Infoshield : c’est le nom de l’algorithme qui pourrait être utilisé à l’avenir par la police canadienne dans sa lutte contre l’exploitation sexuelle en ligne. Selon l’Organisation internationale du travail, environ 4,8 millions de personnes sont victimes annuellement de trafic de personnes à des fins d’exploitation sexuelle. Cette industrie mondiale, contrôlée par des organisations criminelles, générerait presque 70 milliards d’euros.

Pour lutter contre ce fléau, une équipe de recherche a conçu cet algorithme capable d’identifier les activités de traite des personnes dans les annonces d’escorte en ligne. Les publicités sur internet sont régulièrement utilisées dans ce genre de trafic : le marché de la publicité en ligne est en constante croissance et offre aux criminels une plateforme anonyme et à faible risque pour réaliser leurs méfaits en “toute tranquillité”.

C’est ce que précise Reihaneh Rabbany, membre académique principal de Mila, professeure adjointe à l’école d’informatique de McGill et titulaire de la Chaire en IA-Canada CIFAR.

“La majorité des victimes sont annoncées en ligne et n’ont aucune influence sur la formulation des annonces publiées par leur exploiteur, qui contrôle généralement quatre à six victimes à la fois.”

Cette pratique a toutefois une faille : les activités organisées en ligne peuvent être détectées en raison des formulations similaires et des doublons parmi les annonces…

L’algorithme Infoshield analyse l’information et cible les annonces

L’algorithme InfoShield a été conçu de telle manière à ce qu’il soit “capable de repérer des millions de publicités et de mettre en évidence les points communs entre les annonces” selon les dires de Christos Faloutos, professeur à l’école d’informatique de CMU. L’algorithme serait capable de balayer l’information qui circule en temps réel dans l’univers du web et des réseaux sociaux, 24 heures sur 24. Puis il serait en mesure d’en faire l’analyse en reliant des données entre elles.

Catalina Vajiac et Meng-Chieh Lee, deux chercheuses du Mila, précisent le fonctionnement de l’outil :

“Le trafic d’êtres humains est un grave problème sociétal et difficile à surmonter. En cherchant de petits groupes d’annonces qui contiennent du texte similaire plutôt que d’analyser des annonces autonomes, nous sommes en mesure de localiser les groupes d’annonces qui sont les plus susceptibles de correspondre à des activités organisées, à savoir un signal fort de trafic humain.”

Christos Faloutsos, Catalina Vajiac et Namyong Park de Carnegie Mellon University, Reihaneh Rabbany, Aayushi Kulshrestha et Sacha Levy de McGill University et Mila, Meng-Chieh Lee de l’Université nationale Chiao Tung, et Cara Jones de Marinus Analytics sont les auteurs de la publication présentant l’ensemble des travaux ayant mené à la réalisation de cet outil.

Comment l’algorithme a-t-il été entrainé et testé ?

Afin de tester Infoshield, les chercheurs ont appliqué l’algorithme à un ensemble d’annonces d’escortes déjà identifiées par des experts sachant reconnaitre ce type de publicité. Les expérimentations ont permis le signalement des annonces sur le net avec une précision de 85 %. Ces résultats seraient, selon l’équipe de recherche, meilleurs que tous les autres algorithmes d’IA réalisant les mêmes tâches.

Les données d’entrainement du modèle contenaient des annonces réelles placées par des trafiquants d’êtres humains : une difficulté supplémentaire pour les chercheurs qui ne pouvaient pas partager des exemples des similitudes identifiées ou les données elles-mêmes par souci de protection des données et des victimes. Néanmoins, les chercheurs ont pu exploiter des ensembles de données publiques qu’ils ont utilisés pour entrainer Infoshield.

Les chercheurs espèrent que le développement d’outils comme celui-ci puisse être bénéfique pour la société et que leur algorithme puisse être exploité par les forces de police pour lutter contre l’exploitation sexuelle.