Mistral представила Voxtral — первую open source AI-модель для работы с аудио

Французский AI-стартап Mistral выпустил Voxtral — свою первую open source-модель для работы с аудио, ориентированную на бизнес-применения. Это альтернатива закрытым системам, таким как GPT-4o или ElevenLabs, предлагающая сравнимое качество по цене менее чем в половину от конкурентов.

Модель Voxtral построена на базе Mistral Small 3.1 и понимает до 40 минут аудиоконтента. Возможности включают: транскрибацию, генерацию саммари, выполнение голосовых команд с вызовом API и поддержку восьми языков (английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский).

Представлены две версии:

  • Voxtral Small: 24B параметров для масштабных production-развертываний.
  • Voxtral Mini: 3B параметров для edge-сценариев + отдельная версия Transcribe для дешевой транскрибации.

Модель доступна бесплатно через Hugging Face и чат-бот Le Chat. Базовая ставка API — $0.001/минута. Запуск Voxtral последовал за анонсом reasoning-моделей Magistral, а также на фоне возможного привлечения $1 млрд инвестиций от фонда MGX (ОАЭ). Mistral усиливает позиции как ведущий open source-игрок в AI.

Читайте также

  1. Как мы внедрили ML-модель для подбора дизайнов маникюра, а она выдавала стрижки как у Мухаммеда Али
  2. Эволюция: сможет ли ИИ обогнать человечество?
  3. ИИ и энергетический кризис: как накормить цифрового гиганта, не разрушив планету
  4. Как ускорить и удешевить транскрибацию в OpenAI: простой трюк с ffmpeg
  5. Парадокс Солоу 2.0: почему ИИ не приносит быстрой производительности
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!