Claude 3.5 Sonnet как AI-агент: тест в цикле с реальным исполнением кода

В материале подробно описан эксперимент по тестированию AI-агента DepthNet на базе 3.5 Sonnet для автономного выполнения задач с реальным запуском кода (Python, NodeJS, PHP) и обработкой команд в shell. Автор существенно доработал систему плагинов, расширив их гибкость, добавив возможность выполнения кода от разных пользователей и улучшив работу с памятью: теперь поддерживается как обычная (markdown) память, так и экспериментальная векторная память с перекрёстными ссылками.

В ходе теста выявлены ключевые паттерны и ограничения: эффективность работы агента напрямую зависит от простоты системного промпта и его релевантности текущей задаче, а также от того, насколько модель обучена именно как агент, а не как ассистент. Особое внимание уделено вопросам управления памятью (memory и vectormemory), стабильности плагинов, поведению модели при выполнении команд и обработке ошибок. Для продуктивной агентской работы требуется дальнейшее обучение моделей с уклоном на агентские функции, стандартизация API и доработка архитектуры окружения.

Автор делает вывод: современные LLM-ассистенты уже способны частично выполнять агентские задачи при правильной интеграции, однако для массового применения необходимы как специализированное обучение моделей, так и развитие инфраструктуры агентов. Проект DepthNet и исходные материалы доступны в открытом доступе для исследований.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!