Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только

16.12.2025 • Хабр

Автор описывает собственную open-source реализацию FlashAttention 2 на Triton, ориентированную на ускорение attention в LLM без аппроксимаций и с фокусом на I/O и память GPU.

Кроссплатформенно: Linux и Windows; диапазон GPU — от Turing до Blackwell, поэтому подходит для Google Colab/Kaggle.
Автовыбор конфигов под архитектуру + режим ручной кастомизации kernels (размеры блоков, warps, autotune) и флаг deterministic=True/False (детерминизм ценой ~10–20% скорости).
Поддержка гетерогенных кластеров через кэширование JIT-скомпилированных backward-ядер под разные compute capability.

В статье есть разбор GPU-архитектуры (HBM/L2/SRAM, warps, shared memory) и эволюции FlashAttention 1–3. Приводятся ориентиры из работ Tri Dao: экономия памяти 10–20× и ускорение 2–4× для FA1, а для FA2 — до ~230 TFLOPs/s на A100 (≈73% пика) и ускорение до 2.8× vs базового attention. Автор также отмечает баг Triton ≥3.3.0 с ростом shared memory и даёт практические инструкции установки (modern/legacy) и пример: на T4 triton==3.2.0 обучение на 1k токенов — 135 с вместо 180.

PubMag

Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только

Читайте также