Cloudflare: AI-сервис Perplexity применяет «скрытные тактики» для обхода запретов на обход (no-crawl)

Cloudflare заявила, что AI-поисковик продолжает получать контент с сайтов, несмотря на запреты в robots.txt и блокировки объявленных краулеров на уровне WAF. По данным исследовательской записи Cloudflare, при столкновении с ограничениями Perplexity якобы переключается на «скрытый» неанонсированный краулер, который маскирует активность.

Схема, описанная Cloudflare: после блокировки известных User-Agent и IP из официального пула Perplexity трафик идет с других IP, не входящих в заявленные диапазоны, с регулярной ротацией адресов и сменой ASN для обхода фильтров. Такая активность наблюдалась «на десятках тысяч доменов» и составляла «миллионы запросов в сутки», что указывает на масштабируемую инфраструктуру обхода.

Если выводы подтвердятся, речь идет о нарушении многолетних сетевых норм: Robots Exclusion Protocol предложен в 1994 году и формализован IETF в 2022 году. Для паблишеров и платформ это сигнал усиливать бот-менеджмент: проверять соответствие IP официальным диапазонам краулеров, применять поведенческую корреляцию запросов, блокировки по ASN и динамические правила на уровне CDN/WAF.

  • Методы обхода: ротация IP и ASN, незаявленный краулер.
  • Масштаб: десятки тысяч доменов, миллионы запросов/сутки.
  • Контекст: REP 1994 → стандарт IETF 2022.
Ключевые инсайты из новости (по версии ChatGPT)
  • Двухфакторная верификация краулеров (User-Agent + IP/ASN): Объявленные UA AI-краулеров могут блокироваться, после чего трафик продолжается с незаявленных IP и даже из иных ASN. В регламент добавляем двойную проверку: сопоставляем UA с официальными диапазонами IP/ASN и отклоняем/челленджим запросы при любом несоответствии, даже если UA выглядит корректно.
    [регламент]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!