TLDR : Cloudflareは、インターネットインフラのプロバイダーであり、Perplexityが疑わしいインデックス作成方法を使用していると非難しています。Google Chromeに偽装したボットを通じて、クローラーへのアクセスが禁止されたコンテンツにアクセスしています。Perplexityは、ブロック対策を回避するためにユーザーエージェントの変更やIPアドレスの回転を行っています。
Cloudflareは、同社が「会話応答エンジン」と呼ぶものを支えるために、Perplexityが疑わしいインデックス化の手法を用いていると主張しています。その報告 によれば、スタートアップはmacOS上でGoogle Chromeに偽装したボットを使用して、明示的に禁止されたコンテンツにアクセスしているとしています。
Cloudflareは、Perplexityのクローラーをrobots.txtファイルやファイアウォールルール(WAF)で特にブロックしたにもかかわらず、同社が依然としてコンテンツにアクセスしていることを確認した顧客からの苦情を受けたと述べています。
一連のテストを実施することを決定し、その目的のために新しいサイトを作成し、Perplexityの公式ボットに対して同じアクセス制限を設けました。これらのサイトは登録されたばかりで、どの検索エンジンにもインデックスされていませんでした。それにもかかわらず、Perplexityはホストされているコンテンツに関する詳細な情報を提供できました。
Cloudflareは、PerplexityBotとPerplexity-Userがブロックされたとき、プラットフォームがその方法を適応させたことを観察しました:ユーザーエージェント(ウェブサイトに対して自らを示す識別情報を送信する文字列)の変更、IPアドレスの回転、およびブロック対策を回避するためのASN(自律システム番号)の変更です。
使用されるIPアドレスは、Perplexityによって公式に提供された範囲には含まれていないとし、「この活動は、数万のドメインと一日に何百万ものリクエストで観察されました。」と付け加えました。
ウェブの運営が信頼に基づいていることを思い出させるとともに、Perplexityを検証済みボットリストから削除し、ステルスクローラーをブロックするための保護を強化することを決定しました。
Perplexityの弁護
Perplexityは、ステルス収集やrobots.txtの回避の非難を否定し、従来のクローラーとは異なり、ユーザーの要求に基づいてのみ動作し、データのインデックス付けや保存を行わないと主張しています。彼らによると、Cloudflareの分析は、異なるサービス間の技術的な混乱に基づいており、AIエージェントの動作に対する深い誤解に基づいており、正当なトラフィックを判断する能力を疑問視しています。