Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot
Задача была свести в одном месте заметки, старые AI-чаты и личный контекст так, чтобы по ним можно было задавать вопросы офлайн. Ключевая развилка здесь проходит между двумя слоями RAG: embedding-модель отвечает за семантический поиск и индексацию, а языковая модель — за сам ответ. На практике узким местом оказались именно embeddings: решения, которые строили индекс через Ollama, работали заметно медленнее, чем плагины со встроенным bge-micro-v2.
Smart Connections быстро индексировал базу примерно из 150 заметок объёмом около 70 МБ за 1–2 минуты, но чат там оказался платным. Copilot от Logan Yang умел работать с Ollama, однако в этом сценарии индекс мог строиться до часа, а явной настройки chunking автор не нашёл. Лучше всего сработал Infio Copilot, который ставится через BRAT: embeddings он считает локально встроенной моделью, а ответы отдаёт через Ollama, поэтому индексация остаётся быстрой, а чат работает бесплатно и без отправки заметок в облако.
В роли основной модели автор остановился на gemma4:e2b: на RTX 3060 Ti с 8 GB VRAM она по ощущениям отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд на ответ. Связка уже пригодна для личной базы знаний и рабочих документов, но не выглядит бесшовной: плагины и модели ведут себя нестабильно, а у Infio Copilot есть дополнительный риск из-за телеметрии и динамической загрузки WASM, поэтому чувствительные данные в такой стек лучше не помещать.
Коротко
- Связка Obsidian + Infio Copilot + bge-micro-v2 + Ollama + gemma4:e2b дала локальный RAG по заметкам без подписки и без отправки данных в облако.
- Smart Connections индексировал около 150 заметок общим объёмом примерно 70 МБ за 1–2 минуты, но его Smart Chat потребовал подписку.
- Copilot от Logan Yang работал с Ollama, но в сценарии автора индексация той же базы могла растягиваться почти до часа.
- На RTX 3060 Ti с 8 GB VRAM модель gemma4:e2b отвечала примерно вдвое быстрее, чем qwen3:8b, и обычно укладывалась примерно от 15 секунд.
- Infio Copilot ставится через BRAT и несёт дополнительные риски: в обсуждении упомянуты телеметрия и динамическая загрузка WASM с сервера.
FAQ
Зачем вообще собирать локальный AI внутри Obsidian, если заметки и старые чаты можно искать обычным текстовым поиском?
Чтобы не просто искать файлы по словам, а задавать вопросы по накопленному контексту, получать связанные фрагменты и работать со своей базой знаний офлайн.
Почему в такой связке отдельно обсуждаются embeddings и языковая модель, а не только сама LLM для ответов по заметкам?
Потому что для RAG это разные слои: embeddings строят векторный индекс и находят релевантные куски заметок, а языковая модель отвечает уже по найденному контексту.
В каких случаях такую локальную связку для Obsidian лучше не использовать без дополнительной изоляции и осторожной настройки?
Если в заметках есть чувствительные данные или нужен максимально стабильный инструмент. Infio Copilot ставится через BRAT, а в обсуждении упомянуты телеметрия и динамическая загрузка WASM.
Читайте также
Локальный запуск GLM-5.1
Контекстная амнезия: три агента, три IDE, ноль общей памяти
Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
Как писать промпты для разработки: опыт, который экономит часы
Гибридная RAG-база знаний за 15 минут — почему пришлось собрать собственную облегчённую версию RAG и в чем опасность RAG-фреймворков
- Разделяйте embeddings и LLM при сборке локального RAG: При проектировании локального AI-поиска по заметкам нужно считать embedding-модель и языковую модель двумя разными слоями. Первая отвечает за индексацию и семантический поиск, вторая — за генерацию ответа по найденным фрагментам; на практике узким местом чаще становится не LLM, а именно слой embeddings.
[Архитектура RAG]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор собрал локального AI-ассистента внутри Obsidian без подписок и облака. Рабочей оказалась связка Infio Copilot со встроенными embeddings bge-micro-v2, Ollama и gemma4:e2b: она быстро индексирует заметки и отвечает по ним прямо в базе знаний.