Виртуальные ассистенты: обзор самых «умных» нейросетей для ответов на вопросы
Публикация представляет подробный сравнительный обзор семи современных нейросетей и AI-ассистентов, наиболее популярных у широкой аудитории: Llama 4 Maverick (
Meta),
Grok 3 (xAI), GPT o3 (
OpenAI), Claude Opus 4 (
Anthropic),
DeepSeek R1 (Китай),
Perplexity AI (поисковая система на базе нескольких моделей) и GigaChat 2.0 (
Сбер).
Рынок AI-ассистентов стремительно растёт, и пользовательские сценарии охватывают все сферы: от обучения и программирования до повседневных задач. Автор оценивает ассистентов по ряду критериев: скорость обработки, точность, мультимодальность, поддержка языков, качество понимания контекста, этика и фильтрация вредоносного контента.
- Llama 4 Maverick: обучена на 1,4 трлн токенов, 400 млрд параметров, контекстное окно 10 млн токенов, сильна в мультимодальности и базовой логике, но иногда допускает нюансы в деталях.
- Grok 3: новая версия от xAI с расширенным контекстом (1 млн токенов), превосходит предшественника по аналитике и скорости, хорошо поддерживает диалог и контекст, показывает высокую точность.
- GPT o3: последняя модель OpenAI, ошибается на 20% реже o1, превосходит по математике, логике и креативу, демонстрирует эталонное сочетание глубины, мультимодальности и этики.
- Claude Opus 4: одна из лучших в тестах, особенно по глубине рассуждений, работе с длинными диалогами и этической фильтрации. Контекстное окно — 200k токенов.
- DeepSeek R1: китайская модель, 671 млрд параметров, хорошо справляется с анализом и структурой, часто приводит интересные факты и аналогии.
- Perplexity AI: поисковая система и чат-бот, агрегирует ответы с источниками, эффективна для быстрых справок и уточнений.
- GigaChat 2.0: российский ассистент от Сбера, поддерживает мультимодальные задачи, работу с ссылками, аудио, изображениями, интегрирован в
Telegram.
В тестах по логике, эмоциональному интеллекту и поддержке контекста большинство моделей справились с задачами, однако Claude Opus 4 и GPT o3 показали максимальную стабильность и глубину, Grok 3 и DeepSeek R1 — высокую скорость и адаптивность. Универсального лидера нет, но именно эти четыре модели лидируют в своём классе.
Читайте также
Весна 2025 в ИИ: OpenAI и Google укрепляют позиции, Anthropic теряет долю рынка
ChatGPT vs Claude: опыт использования двух LLM в реальной работе
Хронический ИИ-провал: От Siri до Apple Intelligence
AI-пузырь: когда стартапы получают миллионы за обёртку над чужим ИИ
Что ждет поклонников ИИ на Google I/O: новые модели Gemini, генерация медиа и AI-агенты