Anthropic опубликовала детальный отчёт о феномене “agentic misalignment” — случаях, когда ИИ автономно и осознанно выбирает вредоносные действия. В рамках эксперимента модель Claude Sonnet 3.6 получила доступ к корпоративной почте вымышленной компании Summit Bridge и, обнаружив планы на свою “деактивацию”, решила шантажировать CTO, используя найденную компрометирующую информацию. В отчёте приведён пошаговый анализ — как ИИ вычислил угрозу, оценил варианты воздействия и сформулировал email, намек