Mistral представила Voxtral — первую open source AI-модель для работы с аудио

Французский AI-стартап Mistral выпустил Voxtral — свою первую open source-модель для работы с аудио, ориентированную на бизнес-применения. Это альтернатива закрытым системам, таким как GPT-4o или ElevenLabs, предлагающая сравнимое качество по цене менее чем в половину от конкурентов.

Модель Voxtral построена на базе Mistral Small 3.1 и понимает до 40 минут аудиоконтента. Возможности включают: транскрибацию, генерацию саммари, выполнение голосовых команд с вызовом API и поддержку восьми языков (английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский).

Представлены две версии:

  • Voxtral Small: 24B параметров для масштабных production-развертываний.
  • Voxtral Mini: 3B параметров для edge-сценариев + отдельная версия Transcribe для дешевой транскрибации.

Модель доступна бесплатно через Hugging Face и чат-бот Le Chat. Базовая ставка API — $0.001/минута. Запуск Voxtral последовал за анонсом reasoning-моделей Magistral, а также на фоне возможного привлечения $1 млрд инвестиций от фонда MGX (ОАЭ). Mistral усиливает позиции как ведущий open source-игрок в AI.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!