Как собрать агента для XAI и больше не быть онлайн

08.05.2026 • Хабр

Практический туториал по agentic XAI: как собрать LLM-агента для интерпретации ML-модели, дать ему инструменты анализа и проверить, где автономность помогает, а где начинает мешать.

В основе эксперимента — LangChain, RandomForestClassifier и стандартный датасет breast_cancer. Агент получает tools для расчёта качества модели, sanity checks, feature importance, global/local SHAP и объяснения отдельного предсказания, а затем сам решает, какие функции вызвать и как собрать interpretability report.

Сравниваются три подхода: naive agent с разным уровнем инструкций, manual pipeline с детерминированным запуском всех проверок и multi-agent pipeline с ролями аналитика, критика и автора отчёта. Отдельно проверяется сценарий с искусственным признаком collection_batch, который имитирует артефакт сбора данных и может выглядеть как сильный, но ложный сигнал.

Результат получился практичным: даже простые agentic XAI pipelines смогли собрать разумные отчёты на open-weight модели gpt-oss-120b через OpenRouter, но качество сильно зависело от orchestration layer. Naive agent был рабочим, но уверенным и иногда ломался на SHAP; manual pipeline дал воспроизводимость; multi-agent подход лучше подсвечивал collinearity, calibration, leakage и limits of interpretation, но добавлял complexity, latency, стоимость reasoning и лишний текст.

Коротко

LLM-агент описан как система из LLM, tools, состояния и reasoning loop; XAI используется для анализа поведения ML-моделей.
В эксперименте агенту дали tools для метрик, sanity checks, feature importance, SHAP и объяснения одного предсказания.
Manual pipeline запускает проверки детерминированно, а LLM получает готовые результаты и пишет интерпретационный отчёт.
Multi-agent pipeline делит работу между analyst-agent, critic-agent и reporter-agent, но повышает сложность, задержку и стоимость reasoning.
Сценарий batch artifact показал, что все pipeline заметили подозрительный признак collection_batch, но самый сложный отчёт был не самым лаконичным.

FAQ

Зачем использовать LLM-агента для XAI, если уже есть SHAP, feature importance и другие классические методы интерпретации?

Классические методы считают признаки и вклады, но дальше человек должен собрать объяснение. Агент может автоматизировать последовательность проверок и подготовить interpretability report.

Чем naive agent отличается от manual pipeline и multi-agent pipeline в этом эксперименте?

Naive agent сам выбирает tools и порядок действий. Manual pipeline фиксирует проверки заранее, а multi-agent pipeline добавляет отдельного критика и автора финального отчёта.

Какие ограничения agentic XAI проявились в эксперименте с интерпретацией модели?

Агент может пропускать sanity checks, ломаться на отдельных шагах, достраивать лишние выводы или писать слишком уверенно. Главная сложность — научить его понимать, когда объяснению нельзя доверять.

Как собрать агента для XAI и больше не быть онлайн

Коротко

FAQ

Зачем использовать LLM-агента для XAI, если уже есть SHAP, feature importance и другие классические методы интерпретации?

Чем naive agent отличается от manual pipeline и multi-agent pipeline в этом эксперименте?

Какие ограничения agentic XAI проявились в эксперименте с интерпретацией модели?

Читайте также