Cloudflare: AI-сервис Perplexity применяет «скрытные тактики» для обхода запретов на обход (no-crawl)
Cloudflare заявила, что AI-поисковик
Perplexity продолжает получать контент с сайтов, несмотря на запреты в robots.txt и блокировки объявленных краулеров на уровне WAF. По данным исследовательской записи Cloudflare, при столкновении с ограничениями Perplexity якобы переключается на «скрытый» неанонсированный краулер, который маскирует активность.
Схема, описанная Cloudflare: после блокировки известных User-Agent и IP из официального пула Perplexity трафик идет с других IP, не входящих в заявленные диапазоны, с регулярной ротацией адресов и сменой ASN для обхода фильтров. Такая активность наблюдалась «на десятках тысяч доменов» и составляла «миллионы запросов в сутки», что указывает на масштабируемую инфраструктуру обхода.
Если выводы подтвердятся, речь идет о нарушении многолетних сетевых норм: Robots Exclusion Protocol предложен в 1994 году и формализован IETF в 2022 году. Для паблишеров и платформ это сигнал усиливать бот-менеджмент: проверять соответствие IP официальным диапазонам краулеров, применять поведенческую корреляцию запросов, блокировки по ASN и динамические правила на уровне CDN/WAF.
- Методы обхода: ротация IP и ASN, незаявленный краулер.
- Масштаб: десятки тысяч доменов, миллионы запросов/сутки.
- Контекст: REP 1994 → стандарт IETF 2022.
Читайте также
Cloudflare: боты ИИ Perplexity «скрытно краулят» заблокированные сайты
Perplexity обвиняют в скрейпинге сайтов, явно запретивших AI-скрейпинг
Perplexity заявляет, что уходит от рекламы и делает ставку на подписки
«Совкомбанк Страхование» выбрала digital-агентство i-Media для SEO-продвижения
Почему страницы сайта выпадают из индекса
- Двухфакторная верификация краулеров (User-Agent + IP/ASN): Объявленные UA AI-краулеров могут блокироваться, после чего трафик продолжается с незаявленных IP и даже из иных ASN. В регламент добавляем двойную проверку: сопоставляем UA с официальными диапазонами IP/ASN и отклоняем/челленджим запросы при любом несоответствии, даже если UA выглядит корректно.
[регламент]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Ars Technica