cuda
Последние новости
- 03.02.2026
Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт - 02.01.2026
Базовый RAG-компонент для локального семантического поиска на Python - 29.12.2025
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B) - 16.12.2025
Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только - 13.12.2025
Сборка высокопроизводительного AI-десктопа - 04.08.2025
Как я устал от тормозов и закрытости Pinokio и написал свою портативную альтернативу за пару вечеров