Бесплатные AI-модели от Alibaba: 1 млн токенов на каждую модель Qwen в Сингапуре

08.02.2026 • Хабр

Alibaba Cloud Model Studio в сингапурском регионе даёт новым пользователям бесплатную квоту 1 000 000 токенов на каждую модель Qwen. В заметке перечислены условия, ограничения и механика защиты от случайных списаний после исчерпания лимита.

Бесплатная квота заявлена как 1 000 000 токенов на каждую модель отдельно (не на аккаунт): Qwen-Max, Qwen-Plus, Qwen-Flash, Qwen3-Coder-Plus и другие.
Срок действия квоты — 90 дней с момента активации.
Через API доступна линейка Qwen3, включая мультимодальные модели (текст+изображения), OCR с поддержкой русского, а также аудио/видео-мультимодальность.
По умолчанию после исчерпания квоты начинается платное потребление; переключатель Free Quota Only заставляет API возвращать ошибку AllocationQuota.FreeTierOnly вместо списаний.
Ограничения включают привязку к Singapore region (International Edition), покрытие только real-time inference, платность batch-вызовов и context cache, несовместимость API-ключей Сингапура и Пекина, а также раздельные квоты по моделям.

Почему это важно: Предложение снижает барьер для экспериментов с линейкой Qwen, потому что лимит выделяется на каждую модель отдельно. Для проектов с контролем затрат критична механика, где переход на платное потребление происходит автоматически после исчерпания квоты. Совместимость API с OpenAI SDK упрощает перенос интеграций и ускоряет тестирование гипотез.

На что обратить внимание: В тексте отдельно оговорено, что квота работает только в Singapore region (International Edition) и покрывает лишь real-time inference, тогда как batch и context cache оплачиваются отдельно. Также отмечено, что API-ключи разных регионов не взаимозаменяемы, а квота считается по моделям и не объединяется между вариантами вроде qwen-max и qwen-max-latest. В качестве следующего шага в заметке описаны активация квоты через принятие условий, получение ключа в консоли и включение режима Free Quota Only для выбранных моделей.

Коротко

Совместимость с OpenAI SDK снижает порог интеграции: в примере меняется только base_url, а логика вызовов chat completions остаётся прежней.
По оценке в заметке, квота соответствует примерно 500 запросам среднего размера (~2K токенов) — удобный ориентир для планирования экспериментов.
Условия free-tier часто завязаны на регион и тип вызовов (real-time vs batch); это обычно влияет на архитектуру и стоимость тестов.
После исчерпания бесплатных лимитов может измениться биллинг и поведение API; полезно заранее понимать, будет ли отказ с ошибкой или автопереход на оплату.
В тексте упомянут Qwen Code CLI: через OAuth-аутентификацию в Qwen Chat доступно 2000 бесплатных API-вызовов в день, отдельно от Model Studio.

FAQ

Зачем это важно тем, кто работает с AI API и следит за расходами, если в заметке речь идёт только о бесплатной квоте в Alibaba Cloud Model Studio?

Квота даёт период для тестов, а в тексте отдельно описано, что после её исчерпания по умолчанию начинается платное потребление. Упоминается режим Free Quota Only, который вместо списаний возвращает ошибку AllocationQuota.FreeTierOnly.

Какая именно бесплатная квота обещана новым пользователям и сколько она действует: на аккаунт или на каждую модель Qwen в сингапурском регионе?

Заявлено 1 000 000 токенов на каждую модель отдельно, а не на аккаунт. Срок действия квоты — 90 дней с момента активации.

Какие ограничения использования перечислены в заметке: привязка к Singapore region (International Edition), только real-time inference и платность batch-вызовов и context cache?

Квота действует только для Singapore region (International Edition) и покрывает только real-time inference. Batch-вызовы и context cache оплачиваются отдельно.

Что в тексте говорится о Qwen Code CLI и дополнительной бесплатной квоте через OAuth-аутентификацию в Qwen Chat, и связана ли она с Model Studio?

Упоминается, что через OAuth в Qwen Chat можно получить 2000 бесплатных API-вызовов в день для Qwen Code CLI. Эта квота отдельная и не связана с Model Studio.

PubMag