Как я локально тестировал новый Qwen 3.6 и Gemma 4

18.04.2026 • Хабр

Автор локально сравнил Qwen 3.6 и Gemma 4 в агентской задаче по созданию сайта на React/Next.js. По его тесту Qwen лучше выглядела в работе с tools, но провалила верстку, а Gemma дала рабочий результат.

Тест проходил на ноутбуке Asus TUF Gaming с дискретной Nvidia RTX 4070 8GB, Windows, LM Studio и Zed IDE. Автор отказался от CLI-клиентов вроде opencode, claude и pi.dev из-за нестабильной работы tools, проблем с запуском, редактированием файлов и путаницей между bash и PowerShell; стабильнее всего у него сработал Zed IDE с AI.

Для Qwen 3.6 в LM Studio автор настраивал шаблон Jinja, отключал thinking для ускорения ответов, советовал не перегружать видеопамять и держать передачу на GPU в пределах 80–90%. Длину контекста он рекомендовал начинать не выше 60 тыс. токенов и оставлять 10–15% RAM системе, иначе модель может замедляться, галлюцинировать или смешивать языки.

Qwen3.6-35B-A3B-Q4_K_M создала проект примерно за 20–30 минут со скоростью 15–20 токенов в секунду, но не справилась с версткой; Qwen3.6-35B-A3B-Q6 также провалила тест. Gemma-4-26b-a4b дала более простой, но рабочий результат, а Gemma-4-31b показала полноценный вариант, хотя работала несколько часов.

Коротко

Тест проводился локально на Asus TUF Gaming с Nvidia RTX 4070 8GB, Windows, LM Studio и Zed IDE.
Qwen 3.6 автору понравилась в работе с tools, но обе версии Q4 и Q6 провалили задачу по качественной верстке.
Для LM Studio автор советует отключать thinking, не отдавать GPU больше 80–90% VRAM и не завышать контекст.
Gemma-4-26b-a4b дала простой рабочий сайт, а Gemma-4-31b — более сильный результат, но за несколько часов.
Главный практический вывод автора: локальные модели уже применимы, но сложные задачи лучше дробить на этапы и файлы.

FAQ

Зачем автор тестировал Qwen 3.6 и Gemma 4 локально, а не через облачные модели или готовые AI-сервисы?

Он хотел проверить, может ли локальная модель без интернета выполнить полноценную агентскую задачу по созданию проекта. Поэтому внешний план от Opus или Gemini не использовался.

Какая среда для локальной работы с моделью оказалась наиболее стабильной в этом тесте?

Автор выбрал LM Studio и Zed IDE с включенным AI. CLI-клиенты он не использовал из-за сбоев tools, долгой загрузки и проблем с редактированием файлов.

Какой практический вывод автор сделал по работе с длинным контекстом в локальных LLM?

Длинный контекст может требовать много RAM и приводить к потере деталей. Автор предлагает декомпозировать задачи и сохранять подзадачи или историю чата в отдельные текстовые файлы.

PubMag

Как я локально тестировал новый Qwen 3.6 и Gemma 4

Коротко

FAQ

Зачем автор тестировал Qwen 3.6 и Gemma 4 локально, а не через облачные модели или готовые AI-сервисы?

Какая среда для локальной работы с моделью оказалась наиболее стабильной в этом тесте?

Какой практический вывод автор сделал по работе с длинным контекстом в локальных LLM?

Читайте также