En bref : Cloudflare, un fournisseur d'infrastructure Internet, accuse Perplexity de pratiques d'indexation douteuses, en utilisant des bots se faisant passer pour Google Chrome pour accéder à des contenus interdits à ses robots d'exploration. Malgré les mesures de blocage mises en place, Perplexity a réussi à obtenir des informations détaillées sur des sites nouvellement créés, conduisant Cloudflare à renforcer ses protections et à retirer Perplexity de sa liste des bots vérifiés.
Cloudflare, fournisseur d’infrastructure Internet, affirme avoir identifié des pratiques d’indexation douteuses de la part de Perplexity, pour alimenter ce qu'elle appelle "son moteur de réponse conversationnel". Selon un rapport publié sur son blog officiel, la start-up utiliserait des bots se faisant passer pour Google Chrome sur macOS, afin d’accéder à des contenus explicitement interdits à ses crawlers déclarés.
Cloudflare dit avoir reçu des plaintes de clients qui, bien qu'ayant bloqué spécifiquement les crawlers de Perplexity via des fichiers robots.txt ou des règles de pare-feu (WAF), avaient constaté que l'entreprise avait toujours accès à leurs contenus.
Il a décidé de mener une série de tests et, dans ce but, créé de nouveaux sites et mis en place les mêmes mesures de restrictions d'accès pour les bots officiels de Perplexity. Tout juste enregistrés, ces sites n’étaient indexés par aucun moteur de recherche. Malgré cela, Perplexity a pu lui fournir des informations détaillées concernant le contenu hébergé.
Cloudflare indique avoir observé que lorsque PerplexityBot et Perplexity-User étaient bloqués, la plateforme adaptait ses méthodes : modification de l’agent utilisateur (chaîne d’identification envoyée pour indiquer au site web qui il est), rotation des adresses IP et changement d’ASN (numéro d'identification d'un système autonome) pour contourner les mesures de blocage.
L’entreprise précise que les adresses IP utilisées ne figuraient pas dans la plage officiellement communiquée par Perplexity, ajoutant que "cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour".
Rappelant que le fonctionnement du web repose sur la confiance, elle a donc décidé de retirer Perplexity de sa liste des bots vérifiés et renforcé ses protections pour bloquer les crawlers furtifs.
La défense de Perplexity
Cette dernière nie les accusations de collecte furtive ou de contournement de robots.txt, et affirme que, contrairement aux crawlers classiques, ses agents opèrent uniquement sur demande de l'utilisateur, sans indexation ni stockage de données. Selon elle, l’analyse de Cloudflare repose sur une confusion technique entre ses différents services et une incompréhension profonde du fonctionnement des agents IA, mettant en doute sa capacité à juger du trafic légitime.