Cloudflare accusa Perplexity di utilizzare crawler furtivi per aggirare le regole di accesso ai contenuti

Cloudflare accusa Perplexity di utilizzare crawler furtivi per aggirare le regole di accesso ai contenuti

TLDR : Cloudflare, un fornitore d'infrastruttura Internet, accusa Perplexity di pratiche di indicizzazione dubbie, utilizzando bot che si spacciano per Google Chrome per accedere a contenuti vietati ai suoi crawler. Nonostante le misure di blocco, Perplexity è riuscito a ottenere informazioni dettagliate su siti appena creati, portando Cloudflare a rafforzare le sue protezioni e a rimuovere Perplexity dalla sua lista dei bot verificati.

Cloudflare, fornitore di infrastrutture Internet, afferma di aver identificato pratiche di indicizzazione discutibili da parte di Perplexity, per alimentare quello che chiama "il suo motore di risposta conversazionale". Secondo un rapporto pubblicato sul suo blog ufficiale, la start-up utilizzerebbe bot che si spacciano per Google Chrome su macOS, per accedere a contenuti esplicitamente vietati ai suoi crawler dichiarati.
Cloudflare dice di aver ricevuto reclami da clienti che, pur avendo bloccato specificamente i crawler di Perplexity tramite file robots.txt o regole di firewall (WAF), avevano constatato che l'azienda aveva ancora accesso ai loro contenuti.
Ha deciso di condurre una serie di test e, a tal fine, creato nuovi siti e implementato le stesse misure di restrizione di accesso per i bot ufficiali di Perplexity. Appena registrati, questi siti non erano indicizzati da alcun motore di ricerca. Nonostante ciò, Perplexity ha potuto fornire informazioni dettagliate riguardanti il contenuto ospitato.
Cloudflare indica di aver osservato che quando PerplexityBot e Perplexity-User erano bloccati, la piattaforma adattava i suoi metodi: modifica dell'agente utente (stringa di identificazione inviata per indicare al sito web chi è), rotazione degli indirizzi IP e cambio di ASN (numero di identificazione di un sistema autonomo) per aggirare le misure di blocco. 
L'azienda precisa che gli indirizzi IP utilizzati non figuravano nella gamma ufficialmente comunicata da Perplexity, aggiungendo che "questa attività è stata osservata su decine di migliaia di domini e milioni di richieste al giorno". 
Ricordando che il funzionamento del web si basa sulla fiducia, ha quindi deciso di rimuovere Perplexity dalla sua lista dei bot verificati e rafforzato le sue protezioni per bloccare i crawler furtivi.

La difesa di Perplexity

Quest'ultima nega le accuse di raccolta furtiva o di aggiramento di robots.txt, e afferma che, a differenza dei crawler classici, i suoi agenti operano solo su richiesta dell'utente, senza indicizzazione né archiviazione di dati. Secondo lei, l'analisi di Cloudflare si basa su una confusione tecnica tra i suoi diversi servizi e una profonda incomprensione del funzionamento degli agenti IA, mettendo in dubbio la sua capacità di giudicare il traffico legittimo.