Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальную LLM в проект

Практический разбор показывает, как встроить локальную LLM в Capacitor-приложение и запускать AI прямо на телефоне без сервера, API-ключей и постоянного интернета. Главная ценность подхода — приватность, офлайн-работа, меньшая задержка и отсутствие платы за каждый запрос.

Для мобильных сценариев предлагаются компактные квантизированные модели: Gemma 3, Gemma 4, Qwen3 и Phi-4 mini. Gemma 3 270M весит около 400 MB и подходит для быстрых задач на слабых устройствах, Gemma 3 1B занимает около 1.2 GB и даёт баланс качества и скорости. Gemma 4 E2B и E4B ориентированы на edge-сценарии, поддерживают мультимодальность и function calling, но требуют больше памяти: менее 1.5 GB RAM для E2B и около 3 GB для E4B.

Qwen3 рассматривается как удобный вариант для on-device AI: младшая Qwen3-0.6B подходит для лёгких сценариев, а Qwen3-1.7B — для баланса скорости и качества. Phi-4 mini лучше подходит для рассуждений и агентских сценариев, но тяжелее по памяти и скорости. DeepSeek в этой логике не выбран как мобильная локальная модель и скорее относится к облачному сценарию.

Интеграция строится через плагин @capgo/capacitor-llm, который оборачивает нативные inference-движки в Capacitor-интерфейс. На Android рекомендуется держать minSdkVersion не ниже 24, модели можно встроить в APK/AAB или скачать при первом запуске с экраном прогресса. На iOS проще опираться на Apple Intelligence, если доступны iOS 18.2+, поддерживаемое устройство и нужные системные условия; при недоступности нужно предусмотреть заглушку или облачный fallback.

Коротко

  • Локальная LLM в Capacitor нужна для приватных, офлайн и интерактивных сценариев, где облачный API даёт задержку, цену и риск передачи данных.
  • Для Android в статье сравниваются Gemma 3, Gemma 4, Qwen3 и Phi-4 mini; DeepSeek вынесен за рамки как скорее облачный сценарий.
  • Gemma 3 использует формат .task, а Gemma 4 — .litertlm; модель можно встроить в сборку или скачать при первом запуске.
  • Плагин @capgo/capacitor-llm даёт методы readiness, setModel, downloadModel, createChat и sendMessage, а ответы возвращает событиями.
  • Для production-архитектуры предлагается вынести LLM за интерфейс LlmGateway, хранить состояние в Zustand и отделить инициализацию от UI.

FAQ

Зачем запускать LLM локально в мобильном приложении, если уже можно использовать ChatGPT, Claude или Gemini через облако?

Локальный запуск нужен там, где важны приватность, офлайн-доступ, низкая задержка и контроль расходов. Пользовательские документы, заметки и сообщения не уходят на внешний сервер.

Какие модели автор предлагает рассматривать для локального AI на мобильных устройствах в Capacitor-проекте?

Для лёгких задач предлагаются Gemma 3 270M и Qwen3-0.6B, для баланса качества и скорости — Gemma 3 1B или Qwen3-1.7B. Для мультимодальности выделены Gemma 4 E2B и E4B, для рассуждений — Phi-4 mini.

Как в статье предлагается подключать локальную модель к приложению и что нужно предусмотреть для Android и iOS?

На Android используется @capgo/capacitor-llm, LiteRT или LiteRT-LM, minSdkVersion не ниже 24 и доставка модели через сборку или загрузку. На iOS основной практичный путь — Apple Intelligence при поддержке устройства и системы.

Читайте также

  1. Как AI-агент и локальные модели помогли за вечер разобрать 36 000 фотографий и почту с 2005 года
  2. Как дообучить LLM: пошаговый разбор
  3. Сколько железа нужно ИИ-агенту: как считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
  4. Стоит ли использовать Qwen: качество и цена
  5. Мои первые 24 часа с Siri AI на Mac
Ключевые инсайты из новости (по версии ChatGPT)
  • Когда выбирать локальную LLM вместо облачного API: Локальная LLM в мобильном приложении полезна для сценариев, где важны приватность, офлайн-доступ, низкая задержка и контроль стоимости API-запросов. Компромисс такого подхода — повышенные требования к памяти, батарее и размеру модели.
    [AI в мобильных продуктах]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!