Сравнение ChatGPT 5.2 Pro, Claude Sonnet 4.5 и Gemini 3 Pro: кто лучше пишет тексты
Пост на «
Хабре» сравнивает GPT-5.2 Pro, Claude Sonnet 4.5 и
Gemini 3 Pro именно в задаче литературной генерации: комедийная sci-fi, классическое фэнтези и психологический хоррор. Оценивание простое: (+) выполнено, (+-) частично, (-) провал; итог сведён в таблицу и сопровождается субъективными комментариями автора.
ChatGPT 5.2 Pro (знания по состоянию на 31.08.2025; позиционируется OpenAI как «профи»-модель для таблиц/презентаций/кода/длинных контекстов и агентных задач): в тесте получает (+-) во всех трёх жанрах — автор отмечает избыток «кавычек-ёлочек» и слабую передачу жанра (в комедии «не смешно», в хорроре «не зацепило»).- Claude Sonnet 4.5 (
Anthropic; данные до июля 2025; контекст 200 000 токенов с опцией до 1 млн; до 64 000 output-токенов): (+) в фэнтези и хорроре, (+-) в комедии; текст «читается легче», а в хорроре появляется временная петля. - Gemini 3 Pro (
Google/DeepMind позиционируется как «самый интеллектуальный и фактологически точный»): (+) в комедии и фэнтези, но (+-) в хорроре — из-за чрезмерной краткости и резких сюжетных переходов, которые «ломают» читабельность.
Финальный вывод автора: в рамках любительского теста лидируют Claude Sonnet 4.5 и Gemini 3 Pro (условное «первое место»), а GPT-5.2 Pro выглядит слабее именно как «писатель» (стиль/жанр), несмотря на заявленную профессиональную направленность.
Отдельно упомянут агрегатор BotHub, где брались модели: по спецссылке на регистрацию обещают 100 000 «капсов» для экспериментов.
Читайте также
Обновлённый Sonnet от Anthropic лучше использует компьютер — и временами проявляет экзистенциальную тревогу
«Holy shit»: Gemini 3 выигрывает гонку ИИ — по крайней мере сейчас
ChatGPT всё ещё вне конкуренции: итоги ИИ-рынка к середине 2025 года
Как оптимизация промптов превратилась из шаманства в инженерную дисциплину
Почему страницы сайта выпадают из индекса
Ключевые инсайты из новости (по версии ChatGPT)
- Мини-бенчмарк для художественной генерации: 3 жанра + простая шкала: Для быстрого внутреннего сравнения LLM под «писательство» можно использовать схему из трёх жанров (комедийная sci-fi, классическое фэнтези, психологический хоррор) и трёхуровневую оценку выполнения требований: (+) выполнено, (+-) частично, (-) провал. Важно фиксировать результат в таблице и добавлять краткий комментарий «что именно не сработало» (юмор/атмосфера/читабельность/структура), чтобы итоги были воспроизводимыми и полезными для отбора модели под редакционные задачи.
[Процессы: LLM-оценка и QA контента]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!