Claude 3.5 Sonnet как AI-агент: тест в цикле с реальным исполнением кода
В материале подробно описан эксперимент по тестированию AI-агента DepthNet на базе
Claude 3.5 Sonnet для автономного выполнения задач с реальным запуском кода (Python, NodeJS, PHP) и обработкой команд в shell. Автор существенно доработал систему плагинов, расширив их гибкость, добавив возможность выполнения кода от разных пользователей и улучшив работу с памятью: теперь поддерживается как обычная (markdown) память, так и экспериментальная векторная память с перекрёстными ссылками.
В ходе теста выявлены ключевые паттерны и ограничения: эффективность работы агента напрямую зависит от простоты системного промпта и его релевантности текущей задаче, а также от того, насколько модель обучена именно как агент, а не как ассистент. Особое внимание уделено вопросам управления памятью (memory и vectormemory), стабильности плагинов, поведению модели при выполнении команд и обработке ошибок. Для продуктивной агентской работы требуется дальнейшее обучение моделей с уклоном на агентские функции, стандартизация API и доработка архитектуры окружения.
Автор делает вывод: современные LLM-ассистенты уже способны частично выполнять агентские задачи при правильной интеграции, однако для массового применения необходимы как специализированное обучение моделей, так и развитие инфраструктуры агентов. Проект DepthNet и исходные материалы доступны в открытом доступе для исследований.
Читайте также
Архитектура LLM-агентов: планирование, память и инструменты на практике
ИИ, который программирует и эволюционирует сам: Sakana AI анонсировала Darwin Gödel Machine
Мой первый AI-агент: личный опыт создания и реальность работы
Как использовать GenAI-инструменты для подготовки и проведения встреч 1:1 менеджера с сотрудником
Как сделать AI-агентов безопасными: новые рекомендации OWASP