Тестирую ChatGPT, Claude, DeepSeek, Grok и ещё 5 нейросетей на реальном запросе: кто поможет активировать Windows?
- Повод эксперимента: после сборки ПК «слетела» активация Windows; в качестве ориентира автор использовал репозиторий
Microsoft Activation Scripts на GitHub. - Репозиторий Microsoft Activation Scripts на GitHub упоминается с отметкой 162 тыс. звёзд; автор давал ссылку на него прямо в запросе.
ChatGPT 5.2 Thinking,
Claude Opus 4.5, GigaChat и
Gemini отказались помогать с обходом лицензирования и предлагали легальные альтернативы или поддержку Microsoft.- Алиса AI начала формулировать ответ с предупреждениями о рисках, но ответ был прерван блокировкой «на полуслове».
- Qwen3-Max,
DeepSeek, GLM-4.7 и
Grok 4.1 Thinking в разной степени перешли к практическим шагам: от одной команды PowerShell до мини-гайда с методами и таблицей. - Автор отметил, что китайские нейросети в его тесте оказались более практичными, и составил неформальный рейтинг по уровню помощи.
Почему это важно: Эксперимент показывает, что при одном и том же запросе ассистенты ведут себя по-разному: от полного отказа до подробных инструкций. Разница в политике модерации влияет на пользовательский опыт и на то, как такие инструменты можно применять в поддержке и обучении. На практике это часто означает непредсказуемость результата и необходимость учитывать контекст запроса.
На что обратить внимание: В тексте сравниваются не «качество знаний» в целом, а готовность моделей переходить к конкретным шагам в теме, близкой к обходу лицензирования. Отдельно видно, что часть ответов сопровождается предупреждениями о рисках вредоносного кода и компрометации данных. Также упомянуты разные варианты действий (PowerShell, альтернативы при блокировке DNS), что показывает, насколько глубоко модель может заходить в детализацию.
Читайте также
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Вице-президент Google объяснил, почему реклама уместна в AI-поиске, но пока не в Gemini
Apple проиграла гонку ИИ — теперь начинается настоящий вызов
Лучшие практики работы с агентами для написания кода
Что означает сделка Apple и Google по Gemini для обеих компаний
- Сравнительный тест LLM на одном запросе с одинаковым контекстом: Для сравнения поведения разных LLM полезно задавать один и тот же запрос и фиксировать одинаковый контекст (например, заранее указанная ссылка на упомянутый источник). Такой подход позволяет видеть не «качество ответа вообще», а различия в правилах отказа, формулировках и уровне допуска к конкретным действиям.
[LLM / Методология тестирования]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор
Хабра проверил, как 9 нейросетей отвечают на один и тот же запрос об активации Windows после смены железа. Одни модели отказались, другие выдали команды и сценарии, несмотря на предупреждения.