Reddit заблокирует Internet Archive

Reddit объявил о блокировке индексирования своего контента сервисом Internet Archive: Wayback Machine перестанет обходить страницы постов, комментариев и профилей, сохранив доступ лишь к главной странице Reddit.com. По словам компании, через Wayback некоторые AI-игроки обходили платформенные правила и скрейпили данные, включая удалённый контент, что нарушает требования к приватности.

Ограничения начнут «постепенно включаться» уже сегодня; Reddit заявляет, что предварительно уведомил Internet Archive и ранее поднимал проблему несанкционированного парсинга через Wayback. В Internet Archive отметили давние рабочие отношения с Reddit и продолжающийся диалог.

Шаг укладывается в линию Reddit на монетизацию доступа к данным для ИИ: в 2024 году заключено соглашение с Google (для поиска и обучения моделей), спустя месяцы компания начала ограничивать краулинг крупными ПС без оплаты; API-изменения 2023 года объяснялись «злоупотреблением API для обучения ИИ». Также есть сделка с OpenAI и иск к Anthropic (июнь) из-за продолжающегося скрейпинга.

  • Эффект: резкое сокращение доступности исторических данных Reddit для исследователей и журналистов.
  • Рынок: усиление тренда pay-to-crawl/лицензирования данных для ИИ.
  • Политика: акцент на соблюдении приватности и удалении контента в сторонних архивах.

Читайте также

  1. Reddit ограничил доступ Internet Archive к контенту из-за действий ИИ-компаний
  2. Как тимлид заменил десятки вкладок на файловую систему и Claude Code
  3. Reddit потребовала компенсаций от Perplexity за кражу контента для ИИ
  4. Amazon столкнулся с простым бойкотом и экзистенциальным вопросом
  5. Как научить LLM исправлять код без лишних изменений
Ключевые инсайты из новости (по версии ChatGPT)
  • Pay-to-crawl: лицензирование доступа к UGC для ИИ: Платформы переводят доступ к пользовательскому контенту на лицензионную модель: сделки Reddit с Google и OpenAI показывают готовность продавать краулинг и наборы для обучения. Для проектов, использующих внешние UGC-источники, это означает новые бюджетные статьи и необходимость договорной валидации прав на данные.
    [Политика данных]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!