TLDR : Cloudflare, un proveedor d'infrastructure Internet, accuse Perplexity de pratiques d'indexation douteuses, en utilisant des bots se faisant passer pour Google Chrome pour accéder à des contenus interdits à ses robots d'exploration. Malgré les mesures de blocage mises en place, Perplexity a réussi à obtenir des informations détaillées sur des sites nouvellement créés, conduisant Cloudflare à renforcer ses protections et à retirer Perplexity de sa liste des bots vérifiés.
Cloudflare, proveedor de infraestructura de Internet, afirma haber identificado prácticas de indexación dudosas por parte de Perplexity, para alimentar lo que llama "su motor de respuesta conversacional". Según un informe publicado en su blog oficial, la startup estaría utilizando bots que se hacen pasar por Google Chrome en macOS, con el fin de acceder a contenidos explícitamente prohibidos a sus rastreadores declarados.
Cloudflare dice haber recibido quejas de clientes que, aunque bloquearon específicamente los rastreadores de Perplexity a través de archivos robots.txt o reglas de firewall (WAF), descubrieron que la empresa aún tenía acceso a sus contenidos.
Decidió realizar una serie de pruebas y, con este propósito, creó nuevos sitios e implementó las mismas medidas de restricción de acceso para los bots oficiales de Perplexity. Recién registrados, estos sitios no estaban indexados por ningún motor de búsqueda. A pesar de eso, Perplexity pudo proporcionarles información detallada sobre el contenido alojado.
Cloudflare indica haber observado que cuando PerplexityBot y Perplexity-User estaban bloqueados, la plataforma adaptaba sus métodos: modificación del agente de usuario (cadena de identificación enviada para indicar al sitio web quién es), rotación de direcciones IP y cambio de ASN (número de identificación de un sistema autónomo) para eludir las medidas de bloqueo.
La empresa precisa que las direcciones IP utilizadas no figuraban en el rango oficialmente comunicado por Perplexity, añadiendo que "esta actividad se ha observado en decenas de miles de dominios y millones de solicitudes por día".
Recordando que el funcionamiento de la web se basa en la confianza, ha decidido retirar a Perplexity de su lista de bots verificados y ha reforzado sus protecciones para bloquear los rastreadores furtivos.
La defensa de Perplexity
Esta última niega las acusaciones de recolección furtiva o de eludir robots.txt, y afirma que, a diferencia de los rastreadores clásicos, sus agentes operan únicamente a petición del usuario, sin indexación ni almacenamiento de datos. Según ella, el análisis de Cloudflare se basa en una confusión técnica entre sus diferentes servicios y una incomprensión profunda del funcionamiento de los agentes IA, poniendo en duda su capacidad para juzgar el tráfico legítimo.