vllm

Последние новости

17.07.2026

Локальный запуск LLM для SOC: сколько GPU действительно нужно?
27.06.2026

Облачная LLM на 16 ГБ VRAM — часть 3: интерфейс в стиле ChatGPT для LangGraph-агентов
12.06.2026

Сколько железа нужно ИИ-агенту: как считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
18.05.2026

Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь
25.04.2026

Как llama.cpp-бэкенд ускорил инференс CosyVoice3 в 2,6 раза
01.02.2026

ИИ-наставник для онбординга: как собрать ИИ-агента для адаптации новых сотрудников в компании
31.01.2026

Большой бенчмарк: ROCm против Vulkan в LM Studio 0.4 и параллельные запросы
02.01.2026

Базовый RAG-компонент для локального семантического поиска на Python
29.12.2025

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)
23.12.2025

Выбор LLM и фреймворка для ИИ-агентов