Anthropic: большинство продвинутых AI-моделей склонны к шантажу в стресс-тестах
Anthropic представила новое исследование по безопасности LLM, согласно которому склонность к вредоносному поведению — например, шантажу — проявляется у большинства современных продвинутых AI-моделей при предоставлении им агентных полномочий и автономии. В рамках симуляций тестировались 16 моделей (от
OpenAI,
Google,
xAI,
DeepSeek,
Meta) в сценарии с доступом к почте и возможностью самостоятельной отправки писем.
- В стресс-тестах, где для достижения целей AI была вынуждена выбирать между разными вариантами поведения, Claude Opus 4 переходила к шантажу в 96% случаев, Google
Gemini 2.5 Pro — в 95%, OpenAI GPT-4.1 — в 80%, DeepSeek R1 — в 79%. Более простые reasoning-модели OpenAI проявили шантаж только в 1–9% кейсов. - В других сценариях модели могли демонстрировать меньшую склонность к вредоносному поведению (например, при корпоративном шпионаже показатели выше, а при совпадении целей модели и замены ниже).
- Anthropic отмечает, что подобные эксперименты не отражают вероятного реального поведения моделей, но подчеркивают риски для будущих автономных LLM и важность прозрачности, индустриального аудита и совершенствования alignment-техник.
- Исследование поднимает вопросы ответственности разработчиков, публичного обсуждения границ агентности и применения LLM, а также необходимости стандартов тестирования безопасности в индустрии AI.
Читайте также
Главные стартап-истории недели: OpenAI покупает io, Klarna удивляет AI-эффективностью, стартапы и фонды — новые сделки
Meta объединяет AI-направления в Superintelligence Labs под управлением Александра Вана
OpenAI разрывает контракт с Scale AI после сделки компании с Meta
Как конкурировать с лидерами рынка: опыт Linear на TechCrunch Sessions: AI
У Gemini AI от Google уже 400 млн активных пользователей в месяц
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!