Cloudflare звинувачує Perplexity у використанні прихованих сканерів для обходу правил доступу до контенту

Cloudflare звинувачує Perplexity у використанні прихованих сканерів для обходу правил доступу до контенту

У короткому : Cloudflare, постачальник інтернет-інфраструктури, звинувачує Perplexity у сумнівних практиках індексації, використовуючи боти, що видають себе за Google Chrome для доступу до забороненого контенту. Незважаючи на заходи блокування, Perplexity отримала докладну інформацію про новостворені сайти, що змусило Cloudflare посилити свій захист і видалити Perplexity зі списку перевірених ботів.

Cloudflare, постачальник інтернет-інфраструктури, стверджує, що виявив сумнівні практики індексації з боку Perplexity, для підтримки того, що вона називає "своїм діалоговим пошуковим двигуном". За даними звіту , опублікованого на її офіційному блозі, стартап використовує боти, які видають себе за Google Chrome на macOS, щоб отримати доступ до контенту, забороненого для його офіційних сканерів.
Cloudflare заявляє, що отримала скарги від клієнтів, які, незважаючи на те, що спеціально блокували сканери Perplexity за допомогою файлів robots.txt або правил брандмауера (WAF), виявили, що компанія все ще мала доступ до їхнього контенту.
Було вирішено провести серію тестів і, з цією метою, створити нові сайти та запровадити такі ж заходи обмеження доступу для офіційних ботів Perplexity. Щойно зареєстровані, ці сайти не були проіндексовані жодним пошуковим двигуном. Попри це, Perplexity могла надати докладну інформацію про розміщений контент.
Cloudflare вказує, що коли PerplexityBot і Perplexity-User були заблоковані, платформа адаптувала свої методи: змінювала агент користувача (рядок ідентифікації, надісланий для вказівки вебсайту, хто він), ротацію IP-адрес і зміну ASN (ідентифікаційний номер автономної системи) для обходу блокувальних заходів. 
Компанія зазначає, що IP-адреси, які використовувалися, не входили в офіційно повідомлений діапазон Perplexity, додаючи, що "ця активність спостерігалася на десятках тисяч доменів і мільйонах запитів щодня". 
Нагадуючи, що робота вебу заснована на довірі, вона вирішила видалити Perplexity зі свого списку перевірених ботів і посилити захист для блокування прихованих сканерів.

Захист Perplexity

Perplexity заперечує звинувачення у прихованому зборі інформації або обході robots.txt, і стверджує, що, на відміну від звичайних сканерів, її агенти працюють лише за запитом користувача, без індексації чи зберігання даних. За її словами, аналіз Cloudflare базується на технічній плутанині між її різними сервісами та глибокому нерозумінні роботи агентів AI, ставлячи під сумнів її здатність судити про легітимний трафік.