Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги

18.01.2026 • Хабр

Команда AI for Devs перевела обзорную ретроспективу о 2025 годе в мире LLM — третью часть ежегодной серии. Главный вывод текста: «рассуждения» и агентные паттерны с вызовом инструментов стали практической основой для поиска и кодинга.

OpenAI запустила волну inference-scaling / RLVR в сентябре 2024 года с моделями o1 и o1-mini; в начале 2025 года вышли o3, o3-mini и o4-mini.
Claude Code вышел в феврале 2025 года; Anthropic включила релиз вторым пунктом в анонс Claude 3.7 Sonnet.
По состоянию на 2 декабря Anthropic приписывает Claude Code выручку с темпом $1 млрд в год.
В тексте приведены премиальные подписки: Claude Pro Max 20x — $200 в месяц, ChatGPT Pro — $200 в месяц, Google AI Ultra — $249 в месяц (вводная скидка $124,99 в месяц на первые три месяца).
Рейтинг open weight-моделей Artificial Analysis на 30 декабря 2025 года: первые пять позиций занимают китайские модели; самая высокая некитайская — gpt-oss-120B (high) от OpenAI на шестом месте.
Утверждается, что релиз DeepSeek R1 20 января спровоцировал распродажу акций: NVIDIA потеряла около $593 млрд рыночной капитализации, после чего восстановилась.

Почему это важно: Ретроспектива связывает рост качества LLM с RLVR и удлинением RL-прогонов, а не с ростом размеров моделей. Автор подчёркивает, что реальный эффект «рассуждений» проявился в управлении инструментами: многошаговые задачи в поиске и коде стали работать устойчивее. Для рынка это означает выигрывает связка модели и обвязки, а не отдельная демонстрация возможностей.

На что обратить внимание: В тексте агент определён как LLM, которая в цикле вызывает инструменты ради цели; это задаёт проверяемые ожидания к контролю и надёжности. Обсуждаются компромиссы режимов подтверждений и YOLO, а также prompt injection в браузерных агентах, которые имеют доступ к чувствительным данным. Через пример «нормализации отклонений» отмечается привыкание к небезопасным практикам при отсутствии инцидентов. Отдельно звучит вопрос, сохранит ли MCP роль универсального стандарта на фоне роста CLI-кодинг-агентов и альтернатив вроде «Skills» (Markdown-файл, при необходимости дополненный исполняемыми скриптами).

Коротко

В тексте агент определяется как LLM, которая в цикле вызывает инструменты ради цели — это снимает путаницу и помогает обсуждать дизайн таких систем без магии.
Практический вывод из примеров: ценность «рассуждений» раскрывается не в головоломках, а в связке с инструментами, когда модель планирует шаги и корректирует их по результатам.
Для продуктовых команд заметен разворот к «асинхронным» кодинг-агентам, которые работают в песочнице и возвращают Pull Request — это меняет ожидания по скорости и контролю.
Риски описаны через режим YOLO, prompt injection и «нормализацию отклонений»: удобство растёт быстрее, чем привычка держать в голове последствия ошибок и компромиссов.
В одном из блоков отмечено, что готовые тест-наборы (conformance suites) резко повышают эффективность кодинг-агентов, потому что дают им проверяемую опору для итераций.

FAQ

Зачем это важно: что ретроспектива 2025 года в LLM показывает продуктовым и инженерным командам про реальную пользу «рассуждений» и агентов?

Текст связывает «рассуждения» с управлением инструментами и многошаговыми задачами, а также показывает, как это влияет на поиск, кодинг, безопасность и продуктовые форматы.

Что автор называет «агентом» и почему это определение связано именно с циклическим вызовом инструментов, а не с «волшебным помощником» из фантастики?

Автор предлагает считать агентом LLM, которая в цикле вызывает инструменты для достижения цели. Он подчёркивает, что фантастическая версия помощника «как в Her» не появилась.

Почему в тексте так много внимания безопасности (режим YOLO, prompt injection, «нормализация отклонений») и что именно в этом считается нерешённым?

Описывается компромисс между удобством автоматических подтверждений и рисками, включая prompt injection в средах с доступом к данным. Отдельно упоминается позиция CISO OpenAI, который называет prompt injection пограничной, пока нерешённой проблемой безопасности.

PubMag

Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги

Коротко

FAQ

Зачем это важно: что ретроспектива 2025 года в LLM показывает продуктовым и инженерным командам про реальную пользу «рассуждений» и агентов?

Что автор называет «агентом» и почему это определение связано именно с циклическим вызовом инструментов, а не с «волшебным помощником» из фантастики?

Почему в тексте так много внимания безопасности (режим YOLO, prompt injection, «нормализация отклонений») и что именно в этом считается нерешённым?

Читайте также