Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов

06.04.2026 • Хабр

Команда QA описала пилотную систему из 11 AI-агентов на Claude Code, которая автоматизирует до 80% рутинной работы тестировщика: от разбора Jira-задачи до Merge Request с автотестами. Подход не заменяет QA-инженера, а переводит его в роль оператора и контролёра пайплайна.

Система стартует с URL задачи в Jira, подтягивает описание, вложения, подзадачи и данные из Confluence, затем раскладывает требования на User Stories и Tasks, добавляет Global Context с API-контрактами, тестовыми данными и архитектурой и генерирует JSON-сценарии с полной трассируемостью в RTM. Для фронтенда дополнительно подключается Figma через MCP, чтобы учитывать состояния интерфейса и расхождения между текстом требований и макетами, а дальше сценарии превращаются в API- и UI-автотесты на pytest, requests и Playwright с загрузкой кейсов в Zephyr Scale и созданием MR в GitLab.

Внутри пайплайна есть оркестратор, параллельный запуск агентов, quality gates на каждом этапе, сверка сценариев с кодом и двухэтапная отладка. После обычного прогона система делает мутационное тестирование: инвертирует assert'ы и отсекает тесты, которые проходят случайно, а спорные расхождения между Jira, Figma, требованиями и реализацией складывает в единый протокол и частично закрывает в авто-режиме по заданной иерархии приоритетов.

За 1,5 месяца пилота команда подняла объём регрессионных кейсов примерно с 50 до 400, довела покрытие регресса почти до 100%, сократила время регресса с одного дня до десятков минут и уменьшила путь от окончания разработки до апрува QA с нескольких дней до нескольких часов. Пилот работает на Claude Pro за $100 в месяц и, по словам команды, покрывает 2–3 проекта с объёмом 100+ тестов в месяц на проект, но для продуктовой версии уже рассматривается многопользовательский SaaS с React, Temporal, PostgreSQL RLS, Stripe, маскированием данных и on-premise LLM.

Коротко

Система из 11 скиллов забирает задачу из Jira и Confluence, декомпозирует требования и собирает сценарии, автотесты, кейсы в Zephyr и MR в GitLab.
До 80% времени QA команда отнесла к задачам, которые можно систематизировать: анализ требований, кейсы в TMS, тестовые данные, автоматизация и отчёты.
Для UI-сценариев используется Figma через MCP: система читает структуру макетов, находит расхождения и учитывает их при генерации тестов.
После генерации тестов идёт двухэтапная отладка: сначала исправляются ошибки кода и помечаются реальные дефекты, затем запускается мутационное тестирование.
За 1,5 месяца пилота объём регрессионных кейсов вырос примерно с 50 до 400, а время регресса сократилось с одного дня до десятков минут.

FAQ

Зачем команде вообще строить систему из AI-агентов для QA, если можно просто нанять ещё тестировщиков или автоматизаторов?

Команда хотела не увеличить штат, а перестроить сам процесс тестирования от требований до отчёта. Идея в том, чтобы снять с QA до 80% типовой рутины и оставить человеку постановку задач, контроль и спорные решения.

Чем этот подход отличается от обычной генерации автотестов по промпту или изолированного AI-помощника для одного этапа?

Здесь собран сквозной пайплайн: требования, сценарии, селекторы, автотесты, сверка покрытия, загрузка в TMS и создание MR. Сценарии в JSON выступают единым источником правды, а оркестратор следит за качеством на каждом шаге.

Какие ограничения у решения команда признаёт уже на этапе пилота и что собирается менять дальше?

Авторы упоминают ограничения контекстного окна LLM, конфликты при параллельной работе агентов и сырость субагентов в Claude Code, включая проблемы с MCP. Дальше они смотрят в сторону SaaS-версии с биллингом, multi-tenancy, аудитом и более строгой защитой данных.

PubMag

Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов

Коротко

FAQ

Зачем команде вообще строить систему из AI-агентов для QA, если можно просто нанять ещё тестировщиков или автоматизаторов?

Чем этот подход отличается от обычной генерации автотестов по промпту или изолированного AI-помощника для одного этапа?

Какие ограничения у решения команда признаёт уже на этапе пилота и что собирается менять дальше?

Читайте также