版权

Cloudflare 指控 Perplexity 使用隐秘爬虫绕过内容访问规则

Cloudflare 指控 Perplexity 使用伪装成 Google Chrome 的隐秘爬虫访问禁止其爬虫的内容,尽管采取了阻止措施,Perplexity 仍成功获取新创建网站的详细信息,导致 Cloudflare 加强保护措施并将其从验证的机器人列表中移除。

MAMarie-Claude Benoit · ·1 min
Cloudflare 指控 Perplexity 使用隐秘爬虫绕过内容访问规则
目录
Cloudflare,互联网基础设施供应商,声称已识别出 Perplexity 的可疑索引行为,以支持其所谓的“对话响应引擎”。根据其官方博客上发布的一份报告,该初创公司使用伪装成 macOS 上的 Google Chrome 的机器人,以访问明确禁止其声明的爬虫的内容。
Cloudflare 表示已收到客户投诉,这些客户虽然通过 robots.txt 文件或防火墙规则(WAF)专门阻止了 Perplexity 的爬虫,但发现该公司仍然可以访问他们的内容。
Cloudflare 决定进行一系列测试,并为此创建了新网站,并对 Perplexity 官方爬虫实施了相同的访问限制措施。虽然这些新注册的网站未被任何搜索引擎索引,但 Perplexity 仍能够提供有关托管内容的详细信息。
Cloudflare 指出,当 PerplexityBot 和 Perplexity-User 被阻止时,该平台调整了其方法:修改用户代理(用于向网站表明身份的识别字符串)、轮换IP地址和更改ASN(自治系统编号)以绕过阻止措施。
该公司指出,使用的 IP 地址不在 Perplexity 官方公布的范围内,并补充道,“这种活动已在数万个域名和每天数百万次请求中观察到。”
强调网络运作依赖于信任,因此决定将 Perplexity 从其验证的机器人列表中移除,并加强其保护措施以阻止隐秘爬虫。

Perplexity 的辩护

后者否认了隐秘收集或绕过 robots.txt 的指控,并声称与传统爬虫不同,其代理仅在用户请求时操作,无数据索引或存储。它认为 Cloudflare 的分析是对其不同服务的技术混淆,并对其理解 AI 代理运作的能力表示怀疑,质疑其判断合法流量的能力。
 
MA
Marie-Claude Benoit

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。