Mistral представила Voxtral — первую open source AI-модель для работы с аудио
Французский AI-стартап Mistral выпустил Voxtral — свою первую open source-модель для работы с аудио, ориентированную на бизнес-применения. Это альтернатива закрытым системам, таким как GPT-4o или ElevenLabs, предлагающая сравнимое качество по цене менее чем в половину от конкурентов.
Модель Voxtral построена на базе Mistral Small 3.1 и понимает до 40 минут аудиоконтента. Возможности включают: транскрибацию, генерацию саммари, выполнение голосовых команд с вызовом API и поддержку восьми языков (английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский).
Представлены две версии:
- Voxtral Small: 24B параметров для масштабных production-развертываний.
- Voxtral Mini: 3B параметров для edge-сценариев + отдельная версия Transcribe для дешевой транскрибации.
Модель доступна бесплатно через Hugging Face и чат-бот Le Chat. Базовая ставка API — $0.001/минута. Запуск Voxtral последовал за анонсом reasoning-моделей Magistral, а также на фоне возможного привлечения $1 млрд инвестиций от фонда MGX (ОАЭ). Mistral усиливает позиции как ведущий open source-игрок в AI.
Читайте также
Как мы внедрили ML-модель для подбора дизайнов маникюра, а она выдавала стрижки как у Мухаммеда Али
Эволюция: сможет ли ИИ обогнать человечество?
ИИ и энергетический кризис: как накормить цифрового гиганта, не разрушив планету
Как ускорить и удешевить транскрибацию в OpenAI: простой трюк с ffmpeg
Парадокс Солоу 2.0: почему ИИ не приносит быстрой производительности
TechCrunch