Как я локально тестировал новый Qwen 3.6 и Gemma 4
Тест проходил на ноутбуке Asus TUF Gaming с дискретной Nvidia RTX 4070 8GB, Windows, LM Studio и Zed IDE. Автор отказался от CLI-клиентов вроде opencode, claude и pi.dev из-за нестабильной работы tools, проблем с запуском, редактированием файлов и путаницей между bash и PowerShell; стабильнее всего у него сработал Zed IDE с AI.
Для Qwen 3.6 в LM Studio автор настраивал шаблон Jinja, отключал thinking для ускорения ответов, советовал не перегружать видеопамять и держать передачу на GPU в пределах 80–90%. Длину контекста он рекомендовал начинать не выше 60 тыс. токенов и оставлять 10–15% RAM системе, иначе модель может замедляться, галлюцинировать или смешивать языки.
Qwen3.6-35B-A3B-Q4_K_M создала проект примерно за 20–30 минут со скоростью 15–20 токенов в секунду, но не справилась с версткой; Qwen3.6-35B-A3B-Q6 также провалила тест. Gemma-4-26b-a4b дала более простой, но рабочий результат, а Gemma-4-31b показала полноценный вариант, хотя работала несколько часов.
Коротко
- Тест проводился локально на Asus TUF Gaming с Nvidia RTX 4070 8GB, Windows, LM Studio и Zed IDE.
- Qwen 3.6 автору понравилась в работе с tools, но обе версии Q4 и Q6 провалили задачу по качественной верстке.
- Для LM Studio автор советует отключать thinking, не отдавать GPU больше 80–90% VRAM и не завышать контекст.
- Gemma-4-26b-a4b дала простой рабочий сайт, а Gemma-4-31b — более сильный результат, но за несколько часов.
- Главный практический вывод автора: локальные модели уже применимы, но сложные задачи лучше дробить на этапы и файлы.
FAQ
Зачем автор тестировал Qwen 3.6 и Gemma 4 локально, а не через облачные модели или готовые AI-сервисы?
Он хотел проверить, может ли локальная модель без интернета выполнить полноценную агентскую задачу по созданию проекта. Поэтому внешний план от Opus или Gemini не использовался.
Какая среда для локальной работы с моделью оказалась наиболее стабильной в этом тесте?
Автор выбрал LM Studio и Zed IDE с включенным AI. CLI-клиенты он не использовал из-за сбоев tools, долгой загрузки и проблем с редактированием файлов.
Какой практический вывод автор сделал по работе с длинным контекстом в локальных LLM?
Длинный контекст может требовать много RAM и приводить к потере деталей. Автор предлагает декомпозировать задачи и сохранять подзадачи или историю чата в отдельные текстовые файлы.
Читайте также
Как писать промпты для разработки: опыт, который экономит часы
LLM-агент для поиска свободных доменов: автоматизация подбора
Когда, зачем и как правильно начинать новую сессию в Claude Code
Вайбкодинг с Claude: оформление Telegram-бота, UX и сценарии взаимодействия
От localhost до сервера: деплой Telegram-бота за 8 минут
- Раздельная оценка локальных LLM-агентов по tool-use и качеству результата: При тестировании локальных LLM-агентов полезно отдельно оценивать способность работать с tools и финальное качество продукта. В кейсе Qwen 3.6 лучше проявила себя в агентских операциях, но провалила верстку, тогда как Gemma 4 дала более пригодный результат в задаче создания сайта.
[AI-инструменты разработки]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор локально сравнил Qwen 3.6 и Gemma 4 в агентской задаче по созданию сайта на React/Next.js. По его тесту Qwen лучше выглядела в работе с tools, но провалила верстку, а Gemma дала рабочий результат.