Reddit заблокирует Internet Archive

объявил о блокировке индексирования своего контента сервисом Internet Archive: Wayback Machine перестанет обходить страницы постов, комментариев и профилей, сохранив доступ лишь к главной странице Reddit.com. По словам компании, через Wayback некоторые AI-игроки обходили платформенные правила и скрейпили данные, включая удалённый контент, что нарушает требования к приватности.

Ограничения начнут «постепенно включаться» уже сегодня; Reddit заявляет, что предварительно уведомил Internet Archive и ранее поднимал проблему несанкционированного парсинга через Wayback. В Internet Archive отметили давние рабочие отношения с Reddit и продолжающийся диалог.

Шаг укладывается в линию Reddit на монетизацию доступа к данным для ИИ: в 2024 году заключено соглашение с (для поиска и обучения моделей), спустя месяцы компания начала ограничивать краулинг крупными ПС без оплаты; API-изменения 2023 года объяснялись «злоупотреблением API для обучения ИИ». Также есть сделка с и иск к (июнь) из-за продолжающегося скрейпинга.

  • Эффект: резкое сокращение доступности исторических данных Reddit для исследователей и журналистов.
  • Рынок: усиление тренда pay-to-crawl/лицензирования данных для ИИ.
  • Политика: акцент на соблюдении приватности и удалении контента в сторонних архивах.
Ключевые инсайты из новости (по версии ChatGPT)
  • Pay-to-crawl: лицензирование доступа к UGC для ИИ: Платформы переводят доступ к пользовательскому контенту на лицензионную модель: сделки Reddit с Google и OpenAI показывают готовность продавать краулинг и наборы для обучения. Для проектов, использующих внешние UGC-источники, это означает новые бюджетные статьи и необходимость договорной валидации прав на данные.
    [Политика данных]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!