Google cherche à lutter contre les contenus indésirables grâce à l'intelligence artificielle

En 2020, Google a annoncé l’introduction de nouveaux outils d’intelligence artificielle dans ses services afin de lutter contre le spam. Selon les équipes de la firme de Mountain View, ces solutions peuvent bloquer jusqu’à 99% de contenus indésirables. Environ 40 milliards de pages de spam sont découvertes chaque jour parmi les milliards de sites ou mails explorés et indexés. Faisons un point sur les techniques employées par Google afin d’éradiquer le spam et les contenus malveillants.

Plusieurs systèmes d’indexation pour lutter contre le spam

Dans un premier temps, la multinationale a conçu des systèmes basés sur l’IA capable de détecter un contenu indésirable lorsqu’un utilisateur explore des pages web ou d’autres contenus (comme des mails par exemple). S’ils détectent un contenu qui semble indésirable, ils ne l’incluent pas dans l’index avec lequel ils fournissent des résultats de recherche.

Ensuite, le modèle d’indexation analyse le contenu qui a été inclus dans cet index et vérifie s’il peut bel et bien être considéré comme du spam. Si tel est le cas, ce contenu n’apparaitra pas dans les résultats de recherche ou dans la boîte mail de l’utilisateur. Les différentes étapes de détection du spam fonctionnent en fait comme un entonnoir :

Plus on s’approche du bas de l’entonnoir, plus il existe des systèmes pour contrer les spams. La première technologie utilisée est celle du crawler GoogleBot. Il s’agit d’un robot qui parcourt les sites web lien par lien, dans un but d’indexation. C’est ainsi que l’on passe du “crawled spam” au “indexed spam”. Cette deuxième phase utilise le modèle précédemment évoqué. Après cela, il n’existe plus que l’action manuelle pour détecter un potentiel spam.

Au-delà du spam, une question de sécurité

Google indique avoir souhaité aller plus loin en entrant dans le domaine de la protection des données de l’utilisateur dans le cadre d’escroqueries ou de fraudes en ligne. Ces dernières existent sous de nombreuses formes, très souvent signalées par des utilisateurs. Grâce à ces signalements, les systèmes développés par Google ont pu s’entrainer à détecter des sites potentiellement frauduleux pour ensuite analyser leur véritable nature de la même manière que pour les spams comme le montre l’illustration ci-dessous :

Par ailleurs, le spam est de plus en plus répandu à cause du piratage de sites web. Les spammeurs utilisent le contenu volé pour y ajouter des pages supplémentaires contenant des liens frauduleux pouvant vous rediriger vers de faux sites demandant des coordonnées bancaires, des informations de connexion ou des données personnelles. Plus grave encore, les pirates peuvent pousser à télécharger un logiciel malveillant prenant le contrôle d’un ordinateur ou d’un compte Google.

Les systèmes de Google ont été conçus dans le but de supprimer le plus rapidement possible tout contenu lié à ce genre d’arnaques. En luttant contre ce genre de pratiques, la firme de Mountain View a développé ses technologies d’IA et précise avoir amélioré certaines de ses prestations, notamment dans le classement et l’indexation d’informations liées à l’achat d’un produit par exemple.