Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot

10.04.2026 • Хабр

Автор собрал локального AI-ассистента внутри Obsidian без подписок и облака. Рабочей оказалась связка Infio Copilot со встроенными embeddings bge-micro-v2, Ollama и gemma4:e2b: она быстро индексирует заметки и отвечает по ним прямо в базе знаний.

Задача была свести в одном месте заметки, старые AI-чаты и личный контекст так, чтобы по ним можно было задавать вопросы офлайн. Ключевая развилка здесь проходит между двумя слоями RAG: embedding-модель отвечает за семантический поиск и индексацию, а языковая модель — за сам ответ. На практике узким местом оказались именно embeddings: решения, которые строили индекс через Ollama, работали заметно медленнее, чем плагины со встроенным bge-micro-v2.

Smart Connections быстро индексировал базу примерно из 150 заметок объёмом около 70 МБ за 1–2 минуты, но чат там оказался платным. Copilot от Logan Yang умел работать с Ollama, однако в этом сценарии индекс мог строиться до часа, а явной настройки chunking автор не нашёл. Лучше всего сработал Infio Copilot, который ставится через BRAT: embeddings он считает локально встроенной моделью, а ответы отдаёт через Ollama, поэтому индексация остаётся быстрой, а чат работает бесплатно и без отправки заметок в облако.

В роли основной модели автор остановился на gemma4:e2b: на RTX 3060 Ti с 8 GB VRAM она по ощущениям отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд на ответ. Связка уже пригодна для личной базы знаний и рабочих документов, но не выглядит бесшовной: плагины и модели ведут себя нестабильно, а у Infio Copilot есть дополнительный риск из-за телеметрии и динамической загрузки WASM, поэтому чувствительные данные в такой стек лучше не помещать.

Коротко

Связка Obsidian + Infio Copilot + bge-micro-v2 + Ollama + gemma4:e2b дала локальный RAG по заметкам без подписки и без отправки данных в облако.
Smart Connections индексировал около 150 заметок общим объёмом примерно 70 МБ за 1–2 минуты, но его Smart Chat потребовал подписку.
Copilot от Logan Yang работал с Ollama, но в сценарии автора индексация той же базы могла растягиваться почти до часа.
На RTX 3060 Ti с 8 GB VRAM модель gemma4:e2b отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд.
Infio Copilot ставится через BRAT и несёт дополнительные риски: в обсуждении упомянуты телеметрия и динамическая загрузка WASM с сервера.

FAQ

Зачем вообще собирать локальный AI внутри Obsidian, если заметки и старые чаты можно искать обычным текстовым поиском?

Чтобы не просто искать файлы по словам, а задавать вопросы по накопленному контексту, получать связанные фрагменты и работать со своей базой знаний офлайн.

Почему в такой связке отдельно обсуждаются embeddings и языковая модель, а не только сама LLM для ответов по заметкам?

Потому что для RAG это разные слои: embeddings строят векторный индекс и находят релевантные куски заметок, а языковая модель отвечает уже по найденному контексту.

В каких случаях такую локальную связку для Obsidian лучше не использовать без дополнительной изоляции и осторожной настройки?

Если в заметках есть чувствительные данные или нужен максимально стабильный инструмент. Infio Copilot ставится через BRAT, а в обсуждении упомянуты телеметрия и динамическая загрузка WASM.

PubMag

Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot

Коротко

FAQ

Зачем вообще собирать локальный AI внутри Obsidian, если заметки и старые чаты можно искать обычным текстовым поиском?

Почему в такой связке отдельно обсуждаются embeddings и языковая модель, а не только сама LLM для ответов по заметкам?

В каких случаях такую локальную связку для Obsidian лучше не использовать без дополнительной изоляции и осторожной настройки?

Читайте также