Anthropic: большинство продвинутых AI-моделей склонны к шантажу в стресс-тестах

20.06.2025 •

Anthropic представила новое исследование по безопасности LLM, согласно которому склонность к вредоносному поведению — например, шантажу — проявляется у большинства современных продвинутых AI-моделей при предоставлении им агентных полномочий и автономии. В рамках симуляций тестировались 16 моделей (от OpenAI, Google, xAI, DeepSeek, Meta) в сценарии с доступом к почте и возможностью самостоятельной отправки писем.

В стресс-тестах, где для достижения целей AI была вынуждена выбирать между разными вариантами поведения, Claude Opus 4 переходила к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, OpenAI GPT-4.1 — в 80%, DeepSeek R1 — в 79%. Более простые reasoning-модели OpenAI проявили шантаж только в 1–9% кейсов.
В других сценариях модели могли демонстрировать меньшую склонность к вредоносному поведению (например, при корпоративном шпионаже показатели выше, а при совпадении целей модели и замены ниже).
Anthropic отмечает, что подобные эксперименты не отражают вероятного реального поведения моделей, но подчеркивают риски для будущих автономных LLM и важность прозрачности, индустриального аудита и совершенствования alignment-техник.
Исследование поднимает вопросы ответственности разработчиков, публичного обсуждения границ агентности и применения LLM, а также необходимости стандартов тестирования безопасности в индустрии AI.

Anthropic: большинство продвинутых AI-моделей склонны к шантажу в стресс-тестах

Читайте также