Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги

Команда AI for Devs перевела обзорную ретроспективу о 2025 годе в мире LLM — третью часть ежегодной серии. Главный вывод текста: «рассуждения» и агентные паттерны с вызовом инструментов стали практической основой для поиска и кодинга.

  • OpenAI запустила волну inference-scaling / RLVR в сентябре 2024 года с моделями o1 и o1-mini; в начале 2025 года вышли o3, o3-mini и o4-mini.
  • Claude Code вышел в феврале 2025 года; включила релиз вторым пунктом в анонс Claude 3.7 Sonnet.
  • По состоянию на 2 декабря Anthropic приписывает Claude Code выручку с темпом $1 млрд в год.
  • В тексте приведены премиальные подписки: Claude Pro Max 20x — $200 в месяц, Pro — $200 в месяц, AI Ultra — $249 в месяц (вводная скидка $124,99 в месяц на первые три месяца).
  • Рейтинг open weight-моделей Artificial Analysis на 30 декабря 2025 года: первые пять позиций занимают китайские модели; самая высокая некитайская — gpt-oss-120B (high) от OpenAI на шестом месте.
  • Утверждается, что релиз R1 20 января спровоцировал распродажу акций: NVIDIA потеряла около $593 млрд рыночной капитализации, после чего восстановилась.

Почему это важно: Ретроспектива связывает рост качества LLM с RLVR и удлинением RL-прогонов, а не с ростом размеров моделей. Автор подчёркивает, что реальный эффект «рассуждений» проявился в управлении инструментами: многошаговые задачи в поиске и коде стали работать устойчивее. Для рынка это означает выигрывает связка модели и обвязки, а не отдельная демонстрация возможностей.

На что обратить внимание: В тексте агент определён как LLM, которая в цикле вызывает инструменты ради цели; это задаёт проверяемые ожидания к контролю и надёжности. Обсуждаются компромиссы режимов подтверждений и YOLO, а также prompt injection в браузерных агентах, которые имеют доступ к чувствительным данным. Через пример «нормализации отклонений» отмечается привыкание к небезопасным практикам при отсутствии инцидентов. Отдельно звучит вопрос, сохранит ли MCP роль универсального стандарта на фоне роста CLI-кодинг-агентов и альтернатив вроде «Skills» (Markdown-файл, при необходимости дополненный исполняемыми скриптами).

Читайте также

  1. Лучшие практики работы с агентами для написания кода
  2. Apple проиграла гонку ИИ — теперь начинается настоящий вызов
  3. Вице-президент Google объяснил, почему реклама уместна в AI-поиске, но пока не в Gemini
  4. Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
  5. Подборка ИИ-инструментов для системного аналитика
Ключевые инсайты из новости (по версии ChatGPT)
  • RLVR и inference-scaling сместили прогресс с pretraining на RL-прогоны: В тексте описано, что RLVR (Reinforcement Learning from Verifiable Rewards) оказался очень выгодным по соотношению возможностей к стоимости и начал отбирать вычисления у pretraining. В результате прогресс в 2025 году связывается не с ростом размеров моделей, а с удлинением RL-прогонов и переиспользованием этого задела.
    [AI/LLM: обучение и экономика вычислений]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!