Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
- OpenAI запустила волну inference-scaling / RLVR в сентябре 2024 года с моделями o1 и o1-mini; в начале 2025 года вышли o3, o3-mini и o4-mini.
- Claude Code вышел в феврале 2025 года; Anthropic включила релиз вторым пунктом в анонс Claude 3.7 Sonnet.
- По состоянию на 2 декабря Anthropic приписывает Claude Code выручку с темпом $1 млрд в год.
- В тексте приведены премиальные подписки: Claude Pro Max 20x — $200 в месяц, ChatGPT Pro — $200 в месяц, Google AI Ultra — $249 в месяц (вводная скидка $124,99 в месяц на первые три месяца).
- Рейтинг open weight-моделей Artificial Analysis на 30 декабря 2025 года: первые пять позиций занимают китайские модели; самая высокая некитайская — gpt-oss-120B (high) от OpenAI на шестом месте.
- Утверждается, что релиз DeepSeek R1 20 января спровоцировал распродажу акций: NVIDIA потеряла около $593 млрд рыночной капитализации, после чего восстановилась.
Почему это важно: Ретроспектива связывает рост качества LLM с RLVR и удлинением RL-прогонов, а не с ростом размеров моделей. Автор подчёркивает, что реальный эффект «рассуждений» проявился в управлении инструментами: многошаговые задачи в поиске и коде стали работать устойчивее. Для рынка это означает выигрывает связка модели и обвязки, а не отдельная демонстрация возможностей.
На что обратить внимание: В тексте агент определён как LLM, которая в цикле вызывает инструменты ради цели; это задаёт проверяемые ожидания к контролю и надёжности. Обсуждаются компромиссы режимов подтверждений и YOLO, а также prompt injection в браузерных агентах, которые имеют доступ к чувствительным данным. Через пример «нормализации отклонений» отмечается привыкание к небезопасным практикам при отсутствии инцидентов. Отдельно звучит вопрос, сохранит ли MCP роль универсального стандарта на фоне роста CLI-кодинг-агентов и альтернатив вроде «Skills» (Markdown-файл, при необходимости дополненный исполняемыми скриптами).
Коротко
- В тексте агент определяется как LLM, которая в цикле вызывает инструменты ради цели — это снимает путаницу и помогает обсуждать дизайн таких систем без магии.
- Практический вывод из примеров: ценность «рассуждений» раскрывается не в головоломках, а в связке с инструментами, когда модель планирует шаги и корректирует их по результатам.
- Для продуктовых команд заметен разворот к «асинхронным» кодинг-агентам, которые работают в песочнице и возвращают Pull Request — это меняет ожидания по скорости и контролю.
- Риски описаны через режим YOLO, prompt injection и «нормализацию отклонений»: удобство растёт быстрее, чем привычка держать в голове последствия ошибок и компромиссов.
- В одном из блоков отмечено, что готовые тест-наборы (conformance suites) резко повышают эффективность кодинг-агентов, потому что дают им проверяемую опору для итераций.
FAQ
Зачем это важно: что ретроспектива 2025 года в LLM показывает продуктовым и инженерным командам про реальную пользу «рассуждений» и агентов?
Текст связывает «рассуждения» с управлением инструментами и многошаговыми задачами, а также показывает, как это влияет на поиск, кодинг, безопасность и продуктовые форматы.
Что автор называет «агентом» и почему это определение связано именно с циклическим вызовом инструментов, а не с «волшебным помощником» из фантастики?
Автор предлагает считать агентом LLM, которая в цикле вызывает инструменты для достижения цели. Он подчёркивает, что фантастическая версия помощника «как в Her» не появилась.
Почему в тексте так много внимания безопасности (режим YOLO, prompt injection, «нормализация отклонений») и что именно в этом считается нерешённым?
Описывается компромисс между удобством автоматических подтверждений и рисками, включая prompt injection в средах с доступом к данным. Отдельно упоминается позиция CISO OpenAI, который называет prompt injection пограничной, пока нерешённой проблемой безопасности.
Читайте также
- RLVR и inference-scaling сместили прогресс с pretraining на RL-прогоны: В тексте описано, что RLVR (Reinforcement Learning from Verifiable Rewards) оказался очень выгодным по соотношению возможностей к стоимости и начал отбирать вычисления у pretraining. В результате прогресс в 2025 году связывается не с ростом размеров моделей, а с удлинением RL-прогонов и переиспользованием этого задела.
[AI/LLM: обучение и экономика вычислений]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться

Команда AI for Devs перевела обзорную ретроспективу о 2025 годе в мире LLM — третью часть ежегодной серии. Главный вывод текста: «рассуждения» и агентные паттерны с вызовом инструментов стали практической основой для поиска и кодинга.