Локальное клонирование голоса по 3-секундному образцу: обзор Qwen3-TTS, примеры на русском и портативная версия

Alibaba открыла модель Qwen3-TTS для синтеза речи, которая умеет клонировать голос по 3-секундному образцу и поддерживает русский язык. В тексте также описана портативная сборка для локального запуска в Windows.

  • Qwen3-TTS — модель TTS с режимами готовых голосов (CustomVoice), генерации голоса по описанию (VoiceDesign) и клонирования голоса (Voice Clone).
  • Клонирование голоса работает по аудио от 3 секунд; в статье утверждается превосходство по сходству спикеров над ElevenLabs и MiniMax по бенчмаркам.
  • Архитектура описана как End-to-End с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв); отмечается высокая скорость на модели 1.7B.
  • Заявлена поддержка 10 языков, включая русский; есть Multi-Speaker режим для диалогов с несколькими спикерами (до 4).
  • Описана портативная версия под Windows 10/11 64-bit: русифицированный интерфейс, установка через install.bat, 50+ голосов и 700+ дополнительных голосов для скачивания из интерфейса.
  • Требования и ограничения: NVIDIA GPU с 8+ ГБ видеопамяти (или CPU медленнее), 16 ГБ ОЗУ, 20 ГБ диска; возможны ошибки в ударениях и проблемы с длинными текстами, а для VoiceDesign лучше работают промпты на английском.

Почему это важно: Появление локального TTS с клонированием голоса расширяет набор инструментов для озвучки без зависимости от облака. В статье перечислены сценарии — от подкастов и видео до игр, аудиокниг и автоматизации (уведомления, IVR, ассистенты). Также отдельно подчёркнуты русскоязычная поддержка и возможность собирать диалоги несколькими голосами.

На что обратить внимание: В описании явно выделены компромиссы качества: ударения и длинные тексты могут быть проблемным местом. Отдельно оговаривается, что подсказки для VoiceDesign лучше воспринимаются на английском, что влияет на воспроизводимость результатов. Для портативной версии упоминается установка через install.bat и требование распаковки в путь без кириллицы, а первый запуск включает загрузку моделей.

Читайте также

  1. Ваша LLM стримит в никуда: разбираемся, как работать с дисконнектами в FastAPI
  2. Позови оператора
  3. Большой бенчмарк: ROCm против Vulkan в LM Studio 0.4 и параллельные запросы
  4. Как я пытался сжимать смыслы вместо байтов
  5. Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт
Ключевые инсайты из новости (по версии ChatGPT)
  • Qwen3-TTS: локальный TTS с клонированием голоса по короткому образцу: Qwen3-TTS — открытая модель синтеза речи, которая поддерживает нативный русский язык и умеет клонировать голос по аудио-образцу длительностью от 3 секунд. Помимо клонирования, модель предлагает режимы озвучки готовыми голосами и генерации нового голоса по текстовому описанию, что делает её пригодной для локальных прототипов озвучки и голосовых интерфейсов.
    [AI / Speech (TTS)]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!