Reddit заблокирует Internet Archive
Reddit объявил о блокировке индексирования своего контента сервисом Internet Archive: Wayback Machine перестанет обходить страницы постов, комментариев и профилей, сохранив доступ лишь к главной странице Reddit.com. По словам компании, через Wayback некоторые AI-игроки обходили платформенные правила и скрейпили данные, включая удалённый контент, что нарушает требования к приватности.
Ограничения начнут «постепенно включаться» уже сегодня; Reddit заявляет, что предварительно уведомил Internet Archive и ранее поднимал проблему несанкционированного парсинга через Wayback. В Internet Archive отметили давние рабочие отношения с Reddit и продолжающийся диалог.
Шаг укладывается в линию Reddit на монетизацию доступа к данным для ИИ: в 2024 году заключено соглашение с Google (для поиска и обучения моделей), спустя месяцы компания начала ограничивать краулинг крупными ПС без оплаты; API-изменения 2023 года объяснялись «злоупотреблением API для обучения ИИ». Также есть сделка с OpenAI и иск к Anthropic (июнь) из-за продолжающегося скрейпинга.
- Эффект: резкое сокращение доступности исторических данных Reddit для исследователей и журналистов.
- Рынок: усиление тренда pay-to-crawl/лицензирования данных для ИИ.
- Политика: акцент на соблюдении приватности и удалении контента в сторонних архивах.
Читайте также
Reddit ограничил доступ Internet Archive к контенту из-за действий ИИ-компаний
Как тимлид заменил десятки вкладок на файловую систему и Claude Code
Reddit потребовала компенсаций от Perplexity за кражу контента для ИИ
Amazon столкнулся с простым бойкотом и экзистенциальным вопросом
Как научить LLM исправлять код без лишних изменений
- Pay-to-crawl: лицензирование доступа к UGC для ИИ: Платформы переводят доступ к пользовательскому контенту на лицензионную модель: сделки Reddit с Google и OpenAI показывают готовность продавать краулинг и наборы для обучения. Для проектов, использующих внешние UGC-источники, это означает новые бюджетные статьи и необходимость договорной валидации прав на данные.
[Политика данных]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться