Автор тестирует Jules — кодинг-агента Google на базе Gemini 3 — и сравнивает его с Devin, Claude Code и Codex. При решении визуально сложной задачи (ретро-ТВ с YouTube и амбилайтом) агент тратит около четырёх часов на бесконечные циклы верификации, не справляется с ограничениями среды (YouTube не запускается), удаляет важные компоненты и в итоге выдаёт технически работающий, но визуально слабый и частично сломанный результат.Даже на простых задачах, вроде переименования раздела, Jules уходит в переименование файлов и классов, ломая проект и зависая в диалоге, тогда как Claude Code решает аналогичную задачу за 15 минут с первого промпта. При этом у сервиса жёсткие квоты: на бесплатном тарифе доступно 15 задач в день, на про тарифе — 100 задач и до 15 одновременных. Автор отмечает типичные проблемы современных агентов: навязчивые и бессодержательные уточняющие вопросы, отсутствие адекватной визуальной оценки интерфейса, зацикливание на валидации и нестабильность при выполнении реальных задач. В собственной системе из девяти критериев Jules получает пока самую низкую оценку.