Как ИИ-агенты управляют ОС и оживляют героев романов: топ-10 AI-исследований апреля 2025
Апрельские исследования по искусственному интеллекту продемонстрировали резкий прогресс в применении AI-агентов для автоматизации научных, инженерных и бизнес-процессов. Среди ключевых кейсов — маломасштабная языковая модель Phi-4-Mini-Reasoning (3,8 млрд параметров) от
Microsoft, которая достигла 94,6% точности на MATH-500 и превзошла более крупные аналоги в сложных математических задачах. Модель оптимизировалась с помощью комбинации synthetic distillation, supervised fine-tuning, preference learning и RLHF.
Вторая заметная работа — AI Scientist-v2: полностью автономный ИИ-учёный, который сам придумывает гипотезы, проводит эксперименты, пишет рукописи и проходит peer-review без участия человека. Платформа PaperCoder переводит статьи по ML в рабочий код, позволяя автоматически создавать репозитории по научным публикациям и проверять воспроизводимость результатов — уже планируется интеграция в процесс подачи работ на ICLR-2025.
Появился новый класс OS-агентов — Desktop AgentOS UFO, позволяющий надёжно автоматизировать взаимодействие с Windows-приложениями и снижать издержки на вызовы LLM. В области retrieval-архитектур отмечен UniversalRAG, обеспечивающий поиск и генерацию по тексту, изображениям и видео с выбором релевантного уровня детализации. Для UX и A/B тестирования внедряются симуляции на LLM-агентах, ускоряющие валидацию интерфейсов и гипотез.
- SLM-модели выходят на уровень production-ready решений в математике и инженерии
- ИИ-агенты автоматизируют весь цикл научных исследований
- Автоматизация управления UI ОС и приложений переходит на гибридные архитектуры
- Retrieval-решения становятся мультимодальными и адаптивными
- Моделирование поведения пользователей, A/B-тесты и генерация сюжетов переводятся на агенты LLM
- Индустрия смещается от prompt-engineering к cognition-engineering: управлению когнитивным процессом LLM
Хабр