Cloudflare oskarża Perplexity o używanie ukrytych crawlerów do obchodzenia zasad dostępu do treści

Cloudflare oskarża Perplexity o używanie ukrytych crawlerów do obchodzenia zasad dostępu do treści

W skrócie : Cloudflare, dostawca infrastruktury internetowej, oskarża Perplexity o wątpliwe praktyki indeksowania, używając botów podszywających się pod Google Chrome w celu uzyskania dostępu do treści zabronionych dla jego crawlerów. Mimo blokad, Perplexity zdołało uzyskać szczegółowe informacje o nowo utworzonych stronach, co skłoniło Cloudflare do wzmocnienia zabezpieczeń i usunięcia Perplexity z listy zweryfikowanych botów.

Cloudflare, dostawca infrastruktury internetowej, twierdzi, że zidentyfikował wątpliwe praktyki indeksowania stosowane przez Perplexity do zasilania tego, co nazywa "swoim silnikiem odpowiedzi konwersacyjnych". Według raportu opublikowanego na swoim oficjalnym blogu, start-up używa botów podszywających się pod Google Chrome na macOS, aby uzyskać dostęp do treści, które są wyraźnie zabronione dla ich zadeklarowanych crawlerów.
Cloudflare twierdzi, że otrzymał skargi od klientów, którzy, mimo zablokowania crawlerów Perplexity za pomocą plików robots.txt lub zasad firewalla (WAF), zauważyli, że firma nadal ma dostęp do ich treści.
Podjęto decyzję o przeprowadzeniu serii testów i w tym celu utworzono nowe witryny, stosując te same ograniczenia dostępu dla oficjalnych botów Perplexity. Te nowo zarejestrowane strony nie były indeksowane przez żadną wyszukiwarkę. Mimo to, Perplexity zdołało dostarczyć szczegółowe informacje na temat hostowanych treści.
Cloudflare zauważył, że kiedy PerplexityBot i Perplexity-User były blokowane, platforma dostosowywała swoje metody: zmieniała agenta użytkownika (ciąg identyfikacyjny wysyłany w celu zidentyfikowania się witrynie), rotowała adresy IP i zmieniała ASN (numer identyfikacyjny systemu autonomicznego), aby obejść środki blokujące.
Firma wskazała, że używane adresy IP nie znajdowały się w oficjalnie komunikowanym zakresie przez Perplexity, dodając, że "ta aktywność była obserwowana na dziesiątkach tysięcy domen i milionach zapytań dziennie".
Przypominając, że funkcjonowanie internetu opiera się na zaufaniu, zdecydowano się usunąć Perplexity z listy zweryfikowanych botów i wzmocnić ochronę przed ukrytymi crawlerami.

Obrona Perplexity

Firma ta zaprzecza oskarżeniom o ukrytą zbiórkę danych lub obchodzenie robots.txt, twierdząc, że w przeciwieństwie do klasycznych crawlerów, jej agenci działają wyłącznie na żądanie użytkownika, bez indeksowania ani przechowywania danych. Według niej, analiza Cloudflare opiera się na technicznym zamieszaniu między różnymi usługami i głębokim niezrozumieniu funkcjonowania agentów AI, podważając jej zdolność do oceniania legalnego ruchu.