Собрал Telegram-бота на Gemma 3, чтобы он отвечал на сообщения вместо меня
Автор собрал локального
Telegram-бота на базе Gemma 3 (12B) через Ollama, чтобы разгрузить повторяющиеся коммуникации (FAQ, ссылки на инструкции, скрипты). Решение работает офлайн, учитывает опечатки и контекст, использует whitelist для аутентификации и шифрует журналы/историю (Fernet). Бот хранит сессионный контекст (последние 5–10 сообщений) и опирается на RAG: векторная БД Chroma с эмбеддингами (Sentence-Transformers) и автообновлением знаний из Git по расписанию.
Технологии и инфраструктура: Ubuntu 24.04, Docker (Ollama, API на 11434), Python 3.12+, LangChain, python-telegram-bot, APScheduler, Git. Деплой оформлен как systemd-сервис с автозапуском и рестартами.
- Требования: ~16 ГБ RAM (возможно 8 ГБ с квантизацией), 20–30 ГБ диска (модель ~20–25 ГБ), CPU достаточно; GPU (CUDA) ускоряет.
- Безопасность: whitelist по user ID, шифрование логов и истории (Fernet), локальная обработка без передачи данных в облако.
- Обновление базы знаний: Git-pull каждые 30 минут, разбиение документов и векторный поиск в Chroma.
- Юзкейсы: мгновенные ответы на внутренние запросы (инструкции, пароли), генерация утилитарных скриптов, настройка тона ответов.
- Заявленная точность (партнёрский кейс): при опоре на структурированную базу знаний Minerva Knowledge — до 94% корректных ответов против ~50% на несистематизированных источниках.
Читайте также
Автоматизация поддержки клиентов на основе контекстной близости вопросов
Как поднять локальную LLM за 5 минут
Заглянуть под капот ИИ-агентов: новый инструмент раскрывает «магию» Claude Code
ИИ-наставник для онбординга: как собрать ИИ-агента для адаптации новых сотрудников в компании
Новый релиз Ollama 0.15.5
Ключевые инсайты из новости (по версии ChatGPT)
- Шаблон локального LLM-бота (Gemma 3 + Ollama + Telegram): Архитектура: Telegram-бот на Python обращается к Ollama (порт 11434) с моделью Gemma 3 12B и при наличии — к векторной БД для RAG. Минимальная конфигурация: ~16 ГБ RAM и 20–30 ГБ диска; при квантизации допустимо 8 ГБ, но снижается скорость, GPU CUDA даёт заметный прирост.
[Инфраструктура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!