Cloudflare acusa Perplexity de usar crawlers furtivos para contornar regras de acesso ao conteúdo

Cloudflare acusa Perplexity de usar crawlers furtivos para contornar regras de acesso ao conteúdo

Em resumo : Cloudflare, um fornecedor de infraestrutura de Internet, acusa Perplexity de práticas de indexação duvidosas, em usar bots que se passam por Google Chrome para acessar conteúdos proibidos a seus robôs de exploração. Apesar das medidas de bloqueio, Perplexity conseguiu obter informações detalhadas sobre sites recém-criados, levando Cloudflare a reforçar suas proteções e remover Perplexity de sua lista de bots verificados.

Cloudflare, fornecedor de infraestrutura de Internet, afirma ter identificado práticas de indexação duvidosas por parte do Perplexity, para alimentar o que chamam de "seu motor de resposta conversacional". Segundo um relatório publicado em seu blog oficial, a start-up estaria usando bots que se passam pelo Google Chrome no macOS, a fim de acessar conteúdos explicitamente proibidos para seus crawlers declarados.
Cloudflare diz ter recebido reclamações de clientes que, apesar de terem bloqueado especificamente os crawlers do Perplexity via arquivos robots.txt ou regras de firewall (WAF), constataram que a empresa ainda tinha acesso aos seus conteúdos.
Decidiu então realizar uma série de testes e, para isso, criou novos sites e implementou as mesmas medidas de restrição de acesso para os bots oficiais do Perplexity. Recém-registrados, esses sites não eram indexados por nenhum motor de busca. Apesar disso, o Perplexity conseguiu fornecer informações detalhadas sobre o conteúdo hospedado.
Cloudflare indica ter observado que quando PerplexityBot e Perplexity-User eram bloqueados, a plataforma adaptava seus métodos: modificação do agente usuário (cadeia de identificação enviada para indicar ao site quem ele é), rotação de endereços IP e mudança de ASN (número de identificação de um sistema autônomo) para contornar as medidas de bloqueio. 
A empresa esclarece que os endereços IP utilizados não estavam na faixa oficialmente comunicada pelo Perplexity, acrescentando que "essa atividade foi observada em dezenas de milhares de domínios e milhões de requisições por dia". 
Lembrando que o funcionamento da web se baseia na confiança, decidiu então remover o Perplexity de sua lista de bots verificados e reforçou suas proteções para bloquear os crawlers furtivos.

A defesa do Perplexity

Este último nega as acusações de coleta furtiva ou de contorno do robots.txt, e afirma que, ao contrário dos crawlers clássicos, seus agentes operam somente sob demanda do usuário, sem indexação ou armazenamento de dados. Segundo eles, a análise da Cloudflare baseia-se em uma confusão técnica entre seus diferentes serviços e uma incompreensão profunda do funcionamento dos agentes IA, colocando em dúvida sua capacidade de julgar o tráfego legítimo.