cuda

Последние новости

03.02.2026

Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт
02.01.2026

Базовый RAG-компонент для локального семантического поиска на Python
29.12.2025

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)
16.12.2025

Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только
13.12.2025

Сборка высокопроизводительного AI-десктопа
04.08.2025

Как я устал от тормозов и закрытости Pinokio и написал свою портативную альтернативу за пару вечеров