llama-cpp

Последние новости

04.07.2026

Как я обучил русский RAG-сплиттер, который режет документы по индексам, а не по тексту
06.06.2026

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду
30.05.2026

Как я собрал LLM-печку на четырёх GPU и что она умеет
25.05.2026

Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
18.05.2026

Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь
30.04.2026

Как AI учили искать слабые рыночные сигналы
25.04.2026

Как llama.cpp-бэкенд ускорил инференс CosyVoice3 в 2,6 раза
18.04.2026

Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты
31.01.2026

Большой бенчмарк: ROCm против Vulkan в LM Studio 0.4 и параллельные запросы
13.12.2025

Сборка высокопроизводительного AI-десктопа
02.11.2025

Открываем RAG и интернет для LM Studio
01.11.2025

Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B