Как собрать агента для XAI и больше не быть онлайн
В основе эксперимента — LangChain, RandomForestClassifier и стандартный датасет breast_cancer. Агент получает tools для расчёта качества модели, sanity checks, feature importance, global/local SHAP и объяснения отдельного предсказания, а затем сам решает, какие функции вызвать и как собрать interpretability report.
Сравниваются три подхода: naive agent с разным уровнем инструкций, manual pipeline с детерминированным запуском всех проверок и multi-agent pipeline с ролями аналитика, критика и автора отчёта. Отдельно проверяется сценарий с искусственным признаком collection_batch, который имитирует артефакт сбора данных и может выглядеть как сильный, но ложный сигнал.
Результат получился практичным: даже простые agentic XAI pipelines смогли собрать разумные отчёты на open-weight модели gpt-oss-120b через OpenRouter, но качество сильно зависело от orchestration layer. Naive agent был рабочим, но уверенным и иногда ломался на SHAP; manual pipeline дал воспроизводимость; multi-agent подход лучше подсвечивал collinearity, calibration, leakage и limits of interpretation, но добавлял complexity, latency, стоимость reasoning и лишний текст.
Коротко
- LLM-агент описан как система из LLM, tools, состояния и reasoning loop; XAI используется для анализа поведения ML-моделей.
- В эксперименте агенту дали tools для метрик, sanity checks, feature importance, SHAP и объяснения одного предсказания.
- Manual pipeline запускает проверки детерминированно, а LLM получает готовые результаты и пишет интерпретационный отчёт.
- Multi-agent pipeline делит работу между analyst-agent, critic-agent и reporter-agent, но повышает сложность, задержку и стоимость reasoning.
- Сценарий batch artifact показал, что все pipeline заметили подозрительный признак collection_batch, но самый сложный отчёт был не самым лаконичным.
FAQ
Зачем использовать LLM-агента для XAI, если уже есть SHAP, feature importance и другие классические методы интерпретации?
Классические методы считают признаки и вклады, но дальше человек должен собрать объяснение. Агент может автоматизировать последовательность проверок и подготовить interpretability report.
Чем naive agent отличается от manual pipeline и multi-agent pipeline в этом эксперименте?
Naive agent сам выбирает tools и порядок действий. Manual pipeline фиксирует проверки заранее, а multi-agent pipeline добавляет отдельного критика и автора финального отчёта.
Какие ограничения agentic XAI проявились в эксперименте с интерпретацией модели?
Агент может пропускать sanity checks, ломаться на отдельных шагах, достраивать лишние выводы или писать слишком уверенно. Главная сложность — научить его понимать, когда объяснению нельзя доверять.
Читайте также
Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»
От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде
Самохостный AI-агент на почте, systemd и LLM
Тестируем MVP в 4 раза быстрее: как нейросети изменили жизнь предпринимателей
Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
- Минимальный состав LLM-агента для аналитических задач: LLM-агент удобно проектировать как систему из четырёх компонентов: языковой модели, набора tools, состояния системы и reasoning loop. Для внутренних аналитических пайплайнов это помогает отдельно управлять моделью, доступными действиями, памятью и логикой принятия решений.
[AI-агенты и аналитические пайплайны]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Практический туториал по agentic XAI: как собрать LLM-агента для интерпретации ML-модели, дать ему инструменты анализа и проверить, где автономность помогает, а где начинает мешать.