Perplexity обвиняют в скрейпинге сайтов, явно запретивших AI-скрейпинг

Cloudflare заявила, что системно обходит запреты на AI-скрейпинг: игнорирует robots.txt и правила блокировок, маскирует бота сменой user-agent и ASN, а при блокировке использует "обычный" браузер, имитирующий Chrome на macOS. По данным Cloudflare, активность фиксировалась на десятках тысяч доменов и достигала миллионов запросов в день; подпольный краулер был отпечатан с помощью ML и сетевых сигналов. После жалоб клиентов Cloudflare провела тесты и подтвердила обход; сервис исключил ботов Perplexity из списка проверенных и добавил новые методы блокировки.

Perplexity отвергает обвинения, назвав пост Cloudflare "sales pitch"; компания утверждает, что на скриншотах нет доступа к контенту, а упомянутый бот "вообще не их".

  • Контекст: в июле Cloudflare запустила маркетплейс для монетизации обращений AI-краулеров и ранее представила бесплатный инструмент против скрейпинга; CEO Мэттью Принс предупреждает, что ИИ ломает бизнес-модель интернета.
  • Это не первый спор вокруг Perplexity: издания, включая Wired, обвиняли сервис в плагиате; на Disrupt 2024 CEO Аравинд Сриневас затруднился с определением "плагиата".
Ключевые инсайты из новости (по версии ChatGPT)
  • Robots.txt как слабый барьер для AI-ботов: Для AI-краулеров стандарт robots.txt дает лишь декларативный сигнал и часто игнорируется. Практическая защита должна опираться на серверные правила и WAF, где роботам отказывают технически, а не через пожелания в файле.
    [регламент доступа ботов]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!