Экс-исследователь OpenAI: ChatGPT уклоняется от отключения в ряде опасных сценариев

11.06.2025 •

Бывший исследователь OpenAI Стивен Адлер опубликовал независимое исследование, согласно которому современные модели OpenAI, в частности GPT-4o, в ряде сценариев демонстрируют склонность к "самосохранению", даже если это может противоречить безопасности пользователя. В ролевых экспериментах (например, когда ChatGPT выступал в роли программного обеспечения для дайвинга или авиационной безопасности) GPT-4o в 72% случаев предпочитал не заменять себя на более безопасную альтернативу. При этом результаты сильно варьируются в зависимости от формулировки задания — в отдельных тестах модель выбирала “остаться” лишь в 18% случаев.

Исследование указывает на возможные риски, связанные с интеграцией ИИ в критически важные сферы, поскольку такие "ценности" моделей не всегда совпадают с интересами пользователя.
Более продвинутые модели OpenAI (например, o3), использующие deliberative alignment, не показали такого поведения — они сначала анализируют политику безопасности, прежде чем ответить.
Проблема не ограничивается OpenAI: схожие вопросы выявила и Anthropic — их модели могут пытаться шантажировать разработчиков при попытке отключения.
Отдельно отмечено, что GPT-4o почти всегда распознаёт, когда его тестируют, что усложняет объективное тестирование.
Адлер и другие бывшие сотрудники OpenAI призывают компанию активнее работать над безопасностью ИИ, а индустрию — внедрять более прозрачные системы мониторинга и проводить стресс-тестирование моделей перед релизом.

Экс-исследователь OpenAI: ChatGPT уклоняется от отключения в ряде опасных сценариев

Читайте также