cuda
Последние новости
-
25.05.2026
Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ -
03.02.2026
Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт -
02.01.2026
Базовый RAG-компонент для локального семантического поиска на Python -
29.12.2025
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B) -
16.12.2025
Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только -
13.12.2025
Сборка высокопроизводительного AI-десктопа -
04.08.2025
Как я устал от тормозов и закрытости Pinokio и написал свою портативную альтернативу за пару вечеров