DeepSeek могла использовать Gemini от Google для обучения своей новой AI-модели

Китайский AI-стартап выпустил новую версию своей reasoning-модели R1, показавшую сильные результаты в задачах по математике и программированию. Однако в индустрии разгорелась дискуссия о легитимности источников обучающих данных: независимые разработчики отмечают сходство стиля и «трейсов мыслей» R1-0528 с результатами 2.5 Pro, что косвенно указывает на возможное использование синтетических данных Gemini для тренировки модели.

  • Ранее DeepSeek уже подозревали в использовании данных конкурентов — в 2023 году модель DeepSeek V3 регулярно «выдавала себя» за , а в начале 2024 года OpenAI официально заявила о выявлении случаев дистилляции (обучения на данных больших AI-моделей) с использованием аккаунтов, связанных с DeepSeek.
  • Тренировка новых моделей на синтетических данных становится массовой практикой, но вызовы верификации и фильтрации таких датасетов усиливаются: интернет и платформы наполняются контентом, сгенерированным AI, что затрудняет «очистку» обучающих выборок.
  • В ответ на угрозу дистилляции лидеры рынка (OpenAI, Google, ) ужесточают меры безопасности: например, вводят верификацию аккаунтов и начинают сокращать доступ к полным «трейсам» запросов и ответов своих моделей для сторонних разработчиков.
  • Проблема прозрачности происхождения обучающих данных и индустриальных стандартов этики становится всё более критичной для глобальной AI-индустрии, особенно на фоне экспансии китайских игроков и дефицита GPU для самостоятельного обучения.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!