Виртуальные ассистенты: обзор самых «умных» нейросетей для ответов на вопросы
Публикация представляет подробный сравнительный обзор семи современных нейросетей и AI-ассистентов, наиболее популярных у широкой аудитории: Llama 4 Maverick (
Meta1), Grok 3 (xAI), GPT o3 (OpenAI), Claude Opus 4 (Anthropic), DeepSeek R1 (Китай), Perplexity AI (поисковая система на базе нескольких моделей) и GigaChat 2.0 (Сбер).
Рынок AI-ассистентов стремительно растёт, и пользовательские сценарии охватывают все сферы: от обучения и программирования до повседневных задач. Автор оценивает ассистентов по ряду критериев: скорость обработки, точность, мультимодальность, поддержка языков, качество понимания контекста, этика и фильтрация вредоносного контента.
- Llama 4 Maverick: обучена на 1,4 трлн токенов, 400 млрд параметров, контекстное окно 10 млн токенов, сильна в мультимодальности и базовой логике, но иногда допускает нюансы в деталях.
- Grok 3: новая версия от xAI с расширенным контекстом (1 млн токенов), превосходит предшественника по аналитике и скорости, хорошо поддерживает диалог и контекст, показывает высокую точность.
- GPT o3: последняя модель OpenAI, ошибается на 20% реже o1, превосходит по математике, логике и креативу, демонстрирует эталонное сочетание глубины, мультимодальности и этики.
- Claude Opus 4: одна из лучших в тестах, особенно по глубине рассуждений, работе с длинными диалогами и этической фильтрации. Контекстное окно — 200k токенов.
- DeepSeek R1: китайская модель, 671 млрд параметров, хорошо справляется с анализом и структурой, часто приводит интересные факты и аналогии.
- Perplexity AI: поисковая система и чат-бот, агрегирует ответы с источниками, эффективна для быстрых справок и уточнений.
- GigaChat 2.0:
российский ассистент от Сбера, поддерживает мультимодальные задачи, работу с ссылками, аудио, изображениями, интегрирован в Telegram.
В тестах по логике, эмоциональному интеллекту и поддержке контекста большинство моделей справились с задачами, однако Claude Opus 4 и GPT o3 показали максимальную стабильность и глубину, Grok 3 и DeepSeek R1 — высокую скорость и адаптивность. Универсального лидера нет, но именно эти четыре модели лидируют в своём классе.
Читайте также
Весна 2025 в ИИ: OpenAI и Google укрепляют позиции, Anthropic теряет долю рынка
ChatGPT vs Claude: опыт использования двух LLM в реальной работе
Как тимлид заменил десятки вкладок на файловую систему и Claude Code
Хронический ИИ-провал: От Siri до Apple Intelligence
AI-пузырь: когда стартапы получают миллионы за обёртку над чужим ИИ