Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только

Автор описывает собственную open-source реализацию FlashAttention 2 на Triton, ориентированную на ускорение attention в LLM без аппроксимаций и с фокусом на I/O и память GPU.

  • Кроссплатформенно: Linux и Windows; диапазон GPU — от Turing до Blackwell, поэтому подходит для Colab/Kaggle.
  • Автовыбор конфигов под архитектуру + режим ручной кастомизации kernels (размеры блоков, warps, autotune) и флаг deterministic=True/False (детерминизм ценой ~10–20% скорости).
  • Поддержка гетерогенных кластеров через кэширование JIT-скомпилированных backward-ядер под разные compute capability.

В статье есть разбор GPU-архитектуры (HBM/L2/SRAM, warps, shared memory) и эволюции FlashAttention 1–3. Приводятся ориентиры из работ Tri Dao: экономия памяти 10–20× и ускорение 2–4× для FA1, а для FA2 — до ~230 TFLOPs/s на A100 (≈73% пика) и ускорение до 2.8× vs базового attention. Автор также отмечает баг Triton ≥3.3.0 с ростом shared memory и даёт практические инструкции установки (modern/legacy) и пример: на T4 triton==3.2.0 обучение на 1k токенов — 135 с вместо 180.

Читайте также

  1. Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
  2. Как я устал от тормозов и закрытости Pinokio и написал свою портативную альтернативу за пару вечеров
  3. Заглянуть под капот ИИ-агентов: новый инструмент раскрывает «магию» Claude Code
  4. Сборка высокопроизводительного AI-десктопа
  5. Новый релиз Ollama 0.15.5
Ключевые инсайты из новости (по версии ChatGPT)
  • Как оценивать “здоровье” attention-kernel: сравнение с GEMM и utilization: Для перфоманс-ревью attention полезно использовать относительную шкалу “как близко к GEMM”: если GEMM даёт ~80–90% от пика, а attention заметно ниже (например 30–50% на forward), проблема чаще в планировании потоков/памяти, а не в FLOPs. Это превращает “оптимизацию attention” в управляемый KPI: повышаем загрузку SM и сокращаем лишние обращения к shared memory/HBM.
    [GPU / Производительность]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!