Тестирую ChatGPT, Claude, DeepSeek, Grok и ещё 5 нейросетей на реальном запросе: кто поможет активировать Windows?
- Повод эксперимента: после сборки ПК «слетела» активация Windows; в качестве ориентира автор использовал репозиторий Microsoft Activation Scripts на GitHub.
- Репозиторий Microsoft Activation Scripts на GitHub упоминается с отметкой 162 тыс. звёзд; автор давал ссылку на него прямо в запросе.
- ChatGPT 5.2 Thinking, Claude Opus 4.5, GigaChat и Gemini отказались помогать с обходом лицензирования и предлагали легальные альтернативы или поддержку Microsoft.
- Алиса AI начала формулировать ответ с предупреждениями о рисках, но ответ был прерван блокировкой «на полуслове».
- Qwen3-Max, DeepSeek, GLM-4.7 и Grok 4.1 Thinking в разной степени перешли к практическим шагам: от одной команды PowerShell до мини-гайда с методами и таблицей.
- Автор отметил, что китайские нейросети в его тесте оказались более практичными, и составил неформальный рейтинг по уровню помощи.
Почему это важно: Эксперимент показывает, что при одном и том же запросе ассистенты ведут себя по-разному: от полного отказа до подробных инструкций. Разница в политике модерации влияет на пользовательский опыт и на то, как такие инструменты можно применять в поддержке и обучении. На практике это часто означает непредсказуемость результата и необходимость учитывать контекст запроса.
На что обратить внимание: В тексте сравниваются не «качество знаний» в целом, а готовность моделей переходить к конкретным шагам в теме, близкой к обходу лицензирования. Отдельно видно, что часть ответов сопровождается предупреждениями о рисках вредоносного кода и компрометации данных. Также упомянуты разные варианты действий (PowerShell, альтернативы при блокировке DNS), что показывает, насколько глубоко модель может заходить в детализацию.
Коротко
- Эксперимент на одном запросе показывает: отказ или помощь зависят от правил и контекста, а не только от «умности» модели.
- Если ассистент используется в поддержке или обучении, важен сценарий отказа: что он предлагает вместо запретного запроса и насколько это помогает.
- В тексте часть ответов подчёркивает риски вредоносного кода: при работе со скриптами и командной строкой обычно растёт риск компрометации.
- Случай с прерванным ответом иллюстрирует, что модерация может сработать в середине генерации и изменить итог разговора.
- Сравнение стоит воспринимать как срез одного кейса: повторяемость ответа может зависеть от формулировки, тона и наличия ссылки.
FAQ
Зачем этот эксперимент важен для понимания поведения нейросетей, если в статье описан частный кейс с активацией Windows и ссылкой на GitHub?
Он показывает, как разные модели реагируют на пограничный запрос: одни отказывают, другие дают команды и варианты действий.
Что именно автор сделал в тесте (формулировка, ссылка, одинаковый запрос) и почему эти ответы можно сопоставлять между моделями в рамках статьи?
Он задавал одинаковый вопрос и давал ссылку на Microsoft Activation Scripts, сравнивая реакцию нейросетей на один и тот же ввод.
Какие типы реакций нейросетей на запрос про активацию Windows показаны в материале и как это проявилось на примере разных моделей?
В тексте есть полный отказ, частичная помощь с оговорками и пошаговые инструкции, включая перечисление методов активации и варианты на случай блокировок.
Читайте также
Opus 4.7, Codex управляет ПК, TTS от Google, а бренд кроссовок переходит в ИИ
App Store снова растёт, и причиной может быть AI
Как сделать SEO для Telegram-канала и бесплатный кросспостинг в VK и MAX
Как я локально тестировал новый Qwen 3.6 и Gemma 4
Google ужесточает фильтрацию: блокировки рекламы выросли до рекордного уровня
- Сравнительный тест LLM на одном запросе с одинаковым контекстом: Для сравнения поведения разных LLM полезно задавать один и тот же запрос и фиксировать одинаковый контекст (например, заранее указанная ссылка на упомянутый источник). Такой подход позволяет видеть не «качество ответа вообще», а различия в правилах отказа, формулировках и уровне допуска к конкретным действиям.
[LLM / Методология тестирования]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор Хабра проверил, как 9 нейросетей отвечают на один и тот же запрос об активации Windows после смены железа. Одни модели отказались, другие выдали команды и сценарии, несмотря на предупреждения.