Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot

Автор собрал локального AI-ассистента внутри Obsidian без подписок и облака. Рабочей оказалась связка Infio Copilot со встроенными embeddings bge-micro-v2, Ollama и gemma4:e2b: она быстро индексирует заметки и отвечает по ним прямо в базе знаний.

Задача была свести в одном месте заметки, старые AI-чаты и личный контекст так, чтобы по ним можно было задавать вопросы офлайн. Ключевая развилка здесь проходит между двумя слоями RAG: embedding-модель отвечает за семантический поиск и индексацию, а языковая модель — за сам ответ. На практике узким местом оказались именно embeddings: решения, которые строили индекс через Ollama, работали заметно медленнее, чем плагины со встроенным bge-micro-v2.

Smart Connections быстро индексировал базу примерно из 150 заметок объёмом около 70 МБ за 1–2 минуты, но чат там оказался платным. Copilot от Logan Yang умел работать с Ollama, однако в этом сценарии индекс мог строиться до часа, а явной настройки chunking автор не нашёл. Лучше всего сработал Infio Copilot, который ставится через BRAT: embeddings он считает локально встроенной моделью, а ответы отдаёт через Ollama, поэтому индексация остаётся быстрой, а чат работает бесплатно и без отправки заметок в облако.

В роли основной модели автор остановился на gemma4:e2b: на RTX 3060 Ti с 8 GB VRAM она по ощущениям отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд на ответ. Связка уже пригодна для личной базы знаний и рабочих документов, но не выглядит бесшовной: плагины и модели ведут себя нестабильно, а у Infio Copilot есть дополнительный риск из-за телеметрии и динамической загрузки WASM, поэтому чувствительные данные в такой стек лучше не помещать.

Коротко

  • Связка Obsidian + Infio Copilot + bge-micro-v2 + Ollama + gemma4:e2b дала локальный RAG по заметкам без подписки и без отправки данных в облако.
  • Smart Connections индексировал около 150 заметок общим объёмом примерно 70 МБ за 1–2 минуты, но его Smart Chat потребовал подписку.
  • Copilot от Logan Yang работал с Ollama, но в сценарии автора индексация той же базы могла растягиваться почти до часа.
  • На RTX 3060 Ti с 8 GB VRAM модель gemma4:e2b отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд.
  • Infio Copilot ставится через BRAT и несёт дополнительные риски: в обсуждении упомянуты телеметрия и динамическая загрузка WASM с сервера.

FAQ

Зачем вообще собирать локальный AI внутри Obsidian, если заметки и старые чаты можно искать обычным текстовым поиском?

Чтобы не просто искать файлы по словам, а задавать вопросы по накопленному контексту, получать связанные фрагменты и работать со своей базой знаний офлайн.

Почему в такой связке отдельно обсуждаются embeddings и языковая модель, а не только сама LLM для ответов по заметкам?

Потому что для RAG это разные слои: embeddings строят векторный индекс и находят релевантные куски заметок, а языковая модель отвечает уже по найденному контексту.

В каких случаях такую локальную связку для Obsidian лучше не использовать без дополнительной изоляции и осторожной настройки?

Если в заметках есть чувствительные данные или нужен максимально стабильный инструмент. Infio Copilot ставится через BRAT, а в обсуждении упомянуты телеметрия и динамическая загрузка WASM.

Читайте также

  1. Локальный запуск GLM-5.1
  2. Контекстная амнезия: три агента, три IDE, ноль общей памяти
  3. Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
  4. Как писать промпты для разработки: опыт, который экономит часы
  5. Гибридная RAG-база знаний за 15 минут — почему пришлось собрать собственную облегчённую версию RAG и в чем опасность RAG-фреймворков
Ключевые инсайты из новости (по версии ChatGPT)
  • Разделяйте embeddings и LLM при сборке локального RAG: При проектировании локального AI-поиска по заметкам нужно считать embedding-модель и языковую модель двумя разными слоями. Первая отвечает за индексацию и семантический поиск, вторая — за генерацию ответа по найденным фрагментам; на практике узким местом чаще становится не LLM, а именно слой embeddings.
    [Архитектура RAG]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!