vllm
Последние новости
-
18.05.2026
Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь -
25.04.2026
Как llama.cpp-бэкенд ускорил инференс CosyVoice3 в 2,6 раза -
01.02.2026
ИИ-наставник для онбординга: как собрать ИИ-агента для адаптации новых сотрудников в компании -
31.01.2026
Большой бенчмарк: ROCm против Vulkan в LM Studio 0.4 и параллельные запросы -
02.01.2026
Базовый RAG-компонент для локального семантического поиска на Python -
29.12.2025
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B) -
23.12.2025
Выбор LLM и фреймворка для ИИ-агентов