llama-cpp
Последние новости
-
25.05.2026
Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ -
18.05.2026
Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь -
30.04.2026
Как AI учили искать слабые рыночные сигналы -
25.04.2026
Как llama.cpp-бэкенд ускорил инференс CosyVoice3 в 2,6 раза -
18.04.2026
Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты -
31.01.2026
Большой бенчмарк: ROCm против Vulkan в LM Studio 0.4 и параллельные запросы -
13.12.2025
Сборка высокопроизводительного AI-десктопа -
02.11.2025
Открываем RAG и интернет для LM Studio -
01.11.2025
Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B