DeepSeek могла использовать Gemini от Google для обучения своей новой AI-модели

03.06.2025 •

Китайский AI-стартап DeepSeek выпустил новую версию своей reasoning-модели R1, показавшую сильные результаты в задачах по математике и программированию. Однако в индустрии разгорелась дискуссия о легитимности источников обучающих данных: независимые разработчики отмечают сходство стиля и «трейсов мыслей» R1-0528 с результатами Google Gemini 2.5 Pro, что косвенно указывает на возможное использование синтетических данных Gemini для тренировки модели.

Ранее DeepSeek уже подозревали в использовании данных конкурентов — в 2023 году модель DeepSeek V3 регулярно «выдавала себя» за ChatGPT, а в начале 2024 года OpenAI официально заявила о выявлении случаев дистилляции (обучения на данных больших AI-моделей) с использованием аккаунтов, связанных с DeepSeek.
Тренировка новых моделей на синтетических данных становится массовой практикой, но вызовы верификации и фильтрации таких датасетов усиливаются: интернет и платформы наполняются контентом, сгенерированным AI, что затрудняет «очистку» обучающих выборок.
В ответ на угрозу дистилляции лидеры рынка (OpenAI, Google, Anthropic) ужесточают меры безопасности: например, вводят верификацию аккаунтов и начинают сокращать доступ к полным «трейсам» запросов и ответов своих моделей для сторонних разработчиков.
Проблема прозрачности происхождения обучающих данных и индустриальных стандартов этики становится всё более критичной для глобальной AI-индустрии, особенно на фоне экспансии китайских игроков и дефицита GPU для самостоятельного обучения.

#Google #Искусственный интеллект #TechCrunch #OpenAI #DeepSeek #Gemini

← Назад в ленту Читать оригинал →

✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!