Cloudflare beschuldigt Perplexity, heimliche Crawler zu verwenden, um Zugangsregeln für Inhalte zu umgehen

Cloudflare beschuldigt Perplexity, heimliche Crawler zu verwenden, um Zugangsregeln für Inhalte zu umgehen

TLDR : Cloudflare, ein Internet-Infrastrukturanbieter, beschuldigt Perplexity der fragwürdigen Indexierungspraktiken, indem sie Bots verwenden, die sich als Google Chrome ausgeben, um auf Inhalte zuzugreifen, die für ihre Crawler verboten sind. Trotz der eingeführten Blockierungsmaßnahmen gelang es Perplexity, detaillierte Informationen über neu erstellte Websites zu erhalten, was Cloudflare dazu veranlasste, seine Schutzmaßnahmen zu verstärken und Perplexity von seiner Liste der verifizierten Bots zu streichen.

Cloudflare, ein Anbieter von Internet-Infrastruktur, behauptet, zweifelhafte Indexierungspraktiken von Perplexity identifiziert zu haben, um das zu unterstützen, was sie als ihren "konversationellen Antwortmotor" bezeichnet. Laut einem Bericht, der auf ihrem offiziellen Blog veröffentlicht wurde, nutzt das Start-up Bots, die sich als Google Chrome auf macOS ausgeben, um auf Inhalte zuzugreifen, die für ihre deklarierten Crawler ausdrücklich verboten sind.
Cloudflare gibt an, Beschwerden von Kunden erhalten zu haben, die, obwohl sie die Crawler von Perplexity über robots.txt-Dateien oder Firewall-Regeln (WAF) spezifisch blockiert hatten, festgestellt haben, dass das Unternehmen weiterhin Zugriff auf ihre Inhalte hatte.
Es wurde beschlossen, eine Reihe von Tests durchzuführen und zu diesem Zweck neue Websites zu erstellen und dieselben Zugangsbeschränkungen für die offiziellen Bots von Perplexity einzurichten. Diese gerade registrierten Websites wurden von keiner Suchmaschine indexiert. Trotzdem konnte Perplexity ihnen detaillierte Informationen über die gehosteten Inhalte liefern.
Cloudflare gibt an, beobachtet zu haben, dass, wenn PerplexityBot und Perplexity-User blockiert wurden, die Plattform ihre Methoden anpasste: Änderung des User-Agent (eine Identifikationskette, die an eine Website gesendet wird, um anzugeben, wer sie ist), Rotation der IP-Adressen und Wechsel des ASN (Identifikationsnummer eines autonomen Systems), um die Blockierungsmaßnahmen zu umgehen.
Das Unternehmen gibt an, dass die verwendeten IP-Adressen nicht in dem offiziell von Perplexity kommunizierten Bereich enthalten waren und fügte hinzu, "diese Aktivität wurde auf Zehntausenden von Domains und Millionen von Anfragen pro Tag beobachtet".
Da das Funktionieren des Webs auf Vertrauen basiert, wurde beschlossen, Perplexity von ihrer Liste der verifizierten Bots zu streichen und ihre Schutzmaßnahmen zu verstärken, um heimliche Crawler zu blockieren.

Die Verteidigung von Perplexity

Letztere bestreiten die Vorwürfe der heimlichen Sammlung oder Umgehung von robots.txt und behaupten, dass ihre Agenten im Gegensatz zu klassischen Crawlern nur auf Anfrage des Benutzers operieren, ohne Datenindizierung oder -speicherung. Ihrer Meinung nach basiert die Analyse von Cloudflare auf einer technischen Verwechslung zwischen ihren verschiedenen Diensten und einem tiefen Missverständnis des Funktionsprinzips der KI-Agenten, was ihre Fähigkeit, legitimen Verkehr zu beurteilen, in Frage stellt.