LLM в кармане: локальный запуск моделей на Samsung S24 Ultra через PocketPal — бенчмарки, настройки и туториал
Материал — практический гайд по локальному запуску LLM на смартфоне через PocketPal (мобильный клиент для GGUF/llama.cpp), протестированном на Samsung S24 Ultra c 12 ГБ RAM. Ключевые мотивы: приватность (данные не покидают устройство) и офлайн-режим. Автор показывает установку моделей из Play Market/Hugging Face, расчёт потребления памяти (модель + KV-кэш) и влияние параметров генерации (BOS/EOS, chat template, add_generation_prompt, temperature/top-k/top-p/typical-p, mirostat, penalties).
Выводы и ограничения: загружать модели >6,5 ГБ и >8B параметров не рекомендуется — возможен троттлинг; часть 12B-моделей работает «черепашье» (в отдельных случаях до ~1 слова за 5 минут). На S24 Ultra температура аккумулятора в тестах остаётся в допустимых пределах. Для ориентира: при 6 ГБ веса модели и ~2 ГБ системных нужд остаётся ~4 ГБ под контекст (KV-кэш), что ограничивает реальное окно.
Рекомендации по задачам и квантам:
— Копирайтинг: Qwen-2.5-7B-Instruct; Llama-3.2-3B-Instruct (Q6_K).
— Кодинг: Qwen-2.5-Coder-7B-Instruct (Q4_K_M).
— Универсально: Gemma-3n-E2B-IT (Q8_0).
— Математика: Phi-3.5 mini 4k Instruct (Q4_K_M).
Практика: бенчмарки автора переданы в публичный лидерборд (Hugging Face). PocketPal поддерживает «Pals» (ассистенты/ролевая игра/видео-анализ), группировку чатов и гибкую настройку шаблонов. Рекомендовано использовать «родной» chat-template модели и кванты Q8_0/Q6_K (Q4_K_M — компромисс). Итог: смартфон пригоден для черновиков текста и простого кода «в дороге», но для продуктивной работы лучше переходить на ПК/ноутбук.