cuda
Последние новости
-
03.02.2026
Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт -
02.01.2026
Базовый RAG-компонент для локального семантического поиска на Python -
29.12.2025
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B) -
16.12.2025
Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только -
13.12.2025
Сборка высокопроизводительного AI-десктопа -
04.08.2025
Как я устал от тормозов и закрытости Pinokio и написал свою портативную альтернативу за пару вечеров