Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
- OpenAI запустила волну inference-scaling / RLVR в сентябре 2024 года с моделями o1 и o1-mini; в начале 2025 года вышли o3, o3-mini и o4-mini.
- Claude Code вышел в феврале 2025 года;
Anthropic включила релиз вторым пунктом в анонс Claude 3.7 Sonnet. - По состоянию на 2 декабря Anthropic приписывает Claude Code выручку с темпом $1 млрд в год.
- В тексте приведены премиальные подписки: Claude Pro Max 20x — $200 в месяц,
ChatGPT Pro — $200 в месяц,
Google AI Ultra — $249 в месяц (вводная скидка $124,99 в месяц на первые три месяца). - Рейтинг open weight-моделей Artificial Analysis на 30 декабря 2025 года: первые пять позиций занимают китайские модели; самая высокая некитайская — gpt-oss-120B (high) от OpenAI на шестом месте.
- Утверждается, что релиз
DeepSeek R1 20 января спровоцировал распродажу акций: NVIDIA потеряла около $593 млрд рыночной капитализации, после чего восстановилась.
Почему это важно: Ретроспектива связывает рост качества LLM с RLVR и удлинением RL-прогонов, а не с ростом размеров моделей. Автор подчёркивает, что реальный эффект «рассуждений» проявился в управлении инструментами: многошаговые задачи в поиске и коде стали работать устойчивее. Для рынка это означает выигрывает связка модели и обвязки, а не отдельная демонстрация возможностей.
На что обратить внимание: В тексте агент определён как LLM, которая в цикле вызывает инструменты ради цели; это задаёт проверяемые ожидания к контролю и надёжности. Обсуждаются компромиссы режимов подтверждений и YOLO, а также prompt injection в браузерных агентах, которые имеют доступ к чувствительным данным. Через пример «нормализации отклонений» отмечается привыкание к небезопасным практикам при отсутствии инцидентов. Отдельно звучит вопрос, сохранит ли MCP роль универсального стандарта на фоне роста CLI-кодинг-агентов и альтернатив вроде «Skills» (Markdown-файл, при необходимости дополненный исполняемыми скриптами).
Читайте также
Лучшие практики работы с агентами для написания кода
Apple проиграла гонку ИИ — теперь начинается настоящий вызов
Вице-президент Google объяснил, почему реклама уместна в AI-поиске, но пока не в Gemini
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
Подборка ИИ-инструментов для системного аналитика
- RLVR и inference-scaling сместили прогресс с pretraining на RL-прогоны: В тексте описано, что RLVR (Reinforcement Learning from Verifiable Rewards) оказался очень выгодным по соотношению возможностей к стоимости и начал отбирать вычисления у pretraining. В результате прогресс в 2025 году связывается не с ростом размеров моделей, а с удлинением RL-прогонов и переиспользованием этого задела.
[AI/LLM: обучение и экономика вычислений]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Команда AI for Devs перевела обзорную ретроспективу о 2025 годе в мире LLM — третью часть ежегодной серии. Главный вывод текста: «рассуждения» и агентные паттерны с вызовом инструментов стали практической основой для поиска и кодинга.