Perplexity обвиняют в скрейпинге сайтов, явно запретивших AI-скрейпинг
Cloudflare заявила, что
Perplexity системно обходит запреты на AI-скрейпинг: игнорирует robots.txt и правила блокировок, маскирует бота сменой user-agent и ASN, а при блокировке использует "обычный" браузер, имитирующий
Google Chrome на macOS. По данным Cloudflare, активность фиксировалась на десятках тысяч доменов и достигала миллионов запросов в день; подпольный краулер был отпечатан с помощью ML и сетевых сигналов. После жалоб клиентов Cloudflare провела тесты и подтвердила обход; сервис исключил ботов Perplexity из списка проверенных и добавил новые методы блокировки.
Perplexity отвергает обвинения, назвав пост Cloudflare "sales pitch"; компания утверждает, что на скриншотах нет доступа к контенту, а упомянутый бот "вообще не их".
- Контекст: в июле Cloudflare запустила маркетплейс для монетизации обращений AI-краулеров и ранее представила бесплатный инструмент против скрейпинга; CEO Мэттью Принс предупреждает, что ИИ ломает бизнес-модель интернета.
- Это не первый спор вокруг Perplexity: издания, включая Wired, обвиняли сервис в плагиате; на Disrupt 2024 CEO Аравинд Сриневас затруднился с определением "плагиата".
Читайте также
Cloudflare: боты ИИ Perplexity «скрытно краулят» заблокированные сайты
Cloudflare: AI-сервис Perplexity применяет «скрытные тактики» для обхода запретов на обход (no-crawl)
Perplexity заявляет, что уходит от рекламы и делает ставку на подписки
Canva довела ARR до $4 млрд на фоне роста реферального трафика из LLM
Meta заключает коммерческие соглашения с издателями для показа новостей в реальном времени в Meta AI
Ключевые инсайты из новости (по версии ChatGPT)
- Robots.txt как слабый барьер для AI-ботов: Для AI-краулеров стандарт robots.txt дает лишь декларативный сигнал и часто игнорируется. Практическая защита должна опираться на серверные правила и WAF, где роботам отказывают технически, а не через пожелания в файле.
[регламент доступа ботов]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!