Cloudflare 指控 Perplexity 使用隐秘爬虫绕过内容访问规则

Cloudflare 指控 Perplexity 使用隐秘爬虫绕过内容访问规则

TLDR : Cloudflare,互联网基础设施供应商,指控 Perplexity 使用伪装成 Google Chrome 的爬虫来访问禁止的内容。尽管已采取阻止措施,Perplexity 仍成功获取新创建网站的详细信息,促使 Cloudflare 加强保护并将 Perplexity 从其验证的机器人列表中移除。

Cloudflare,互联网基础设施供应商,声称已识别出 Perplexity 的可疑索引行为,以支持其所谓的“对话响应引擎”。根据其官方博客上发布的一份报告,该初创公司使用伪装成 macOS 上的 Google Chrome 的机器人,以访问明确禁止其声明的爬虫的内容。
Cloudflare 表示已收到客户投诉,这些客户虽然通过 robots.txt 文件或防火墙规则(WAF)专门阻止了 Perplexity 的爬虫,但发现该公司仍然可以访问他们的内容。
Cloudflare 决定进行一系列测试,并为此创建了新网站,并对 Perplexity 官方爬虫实施了相同的访问限制措施。虽然这些新注册的网站未被任何搜索引擎索引,但 Perplexity 仍能够提供有关托管内容的详细信息。
Cloudflare 指出,当 PerplexityBot 和 Perplexity-User 被阻止时,该平台调整了其方法:修改用户代理(用于向网站表明身份的识别字符串)、轮换IP地址和更改ASN(自治系统编号)以绕过阻止措施。
该公司指出,使用的 IP 地址不在 Perplexity 官方公布的范围内,并补充道,“这种活动已在数万个域名和每天数百万次请求中观察到。”
强调网络运作依赖于信任,因此决定将 Perplexity 从其验证的机器人列表中移除,并加强其保护措施以阻止隐秘爬虫。

Perplexity 的辩护

后者否认了隐秘收集或绕过 robots.txt 的指控,并声称与传统爬虫不同,其代理仅在用户请求时操作,无数据索引或存储。它认为 Cloudflare 的分析是对其不同服务的技术混淆,并对其理解 AI 代理运作的能力表示怀疑,质疑其判断合法流量的能力。