Alibaba открыла модель Qwen3-TTS для синтеза речи, которая умеет клонировать голос по 3-секундному образцу и поддерживает русский язык. В тексте также описана портативная сборка для локального запуска в Windows.Qwen3-TTS — модель TTS с режимами готовых голосов (CustomVoice), генерации голоса по описанию (VoiceDesign) и клонирования голоса (Voice Clone).Клонирование голоса работает по аудио от 3 секунд; в статье утверждается превосходство по сходству спикеров над ElevenLabs и MiniMax по бенчмаркам.Архитектура описана как End-to-End с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв); отмечается высокая скорость на модели 1.7B.Заявлена поддержка 10 языков, включая русский; есть Multi-Speaker режим для диалогов с несколькими спикерами (до 4).Описана портативная версия под Windows 10/11 64-bit: русифицированный интерфейс, установка через install.bat, 50+ голосов и 700+ дополнительных голосов для скачивания из интерфейса.Требования и ограничения: NVIDIA GPU с 8+ ГБ видеопамяти (или CPU медленнее), 16 ГБ ОЗУ, 20 ГБ диска; возможны ошибки в ударениях и проблемы с длинными текстами, а для VoiceDesign лучше работают промпты на английском.Почему это важно: Появление локального TTS с клонированием голоса расширяет набор инструментов для озвучки без зависимости от облака. В статье перечислены сценарии — от подкастов и видео до игр, аудиокниг и автоматизации (уведомления, IVR, ассистенты). Также отдельно подчёркнуты русскоязычная поддержка и возможность собирать диалоги несколькими голосами.На что обратить внимание: В описании явно выделены компромиссы качества: ударения и длинные тексты могут быть проблемным местом. Отдельно оговаривается, что подсказки для VoiceDesign лучше воспринимаются на английском, что влияет на воспроизводимость результатов. Для портативной версии упоминается установка через install.bat и требование распаковки в путь без кириллицы, а первый запуск включает загрузку моделей.