Ускоряем LLM по максимуму: кроссплатформенный FlashAttention 2 на Triton с поддержкой архитектур Turing+ и не только

Автор описывает собственную open-source реализацию FlashAttention 2 на Triton, ориентированную на ускорение attention в LLM без аппроксимаций и с фокусом на I/O и память GPU.

  • Кроссплатформенно: Linux и Windows; диапазон GPU — от Turing до Blackwell, поэтому подходит для Google Colab/Kaggle.
  • Автовыбор конфигов под архитектуру + режим ручной кастомизации kernels (размеры блоков, warps, autotune) и флаг deterministic=True/False (детерминизм ценой ~10–20% скорости).
  • Поддержка гетерогенных кластеров через кэширование JIT-скомпилированных backward-ядер под разные compute capability.

В статье есть разбор GPU-архитектуры (HBM/L2/SRAM, warps, shared memory) и эволюции FlashAttention 1–3. Приводятся ориентиры из работ Tri Dao: экономия памяти 10–20× и ускорение 2–4× для FA1, а для FA2 — до ~230 TFLOPs/s на A100 (≈73% пика) и ускорение до 2.8× vs базового attention. Автор также отмечает баг Triton ≥3.3.0 с ростом shared memory и даёт практические инструкции установки (modern/legacy) и пример: на T4 triton==3.2.0 обучение на 1k токенов — 135 с вместо 180.

Читайте также

  1. Возвращаем к жизни связку OpenClaw и Claude
  2. Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
  3. Stack Overflow отказался от редизайна после критики со стороны постоянных участников сообщества
  4. Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
  5. Как я настроил OpenClaw для зоопарка лендингов своей компании
Ключевые инсайты из новости (по версии ChatGPT)
  • Как оценивать “здоровье” attention-kernel: сравнение с GEMM и utilization: Для перфоманс-ревью attention полезно использовать относительную шкалу “как близко к GEMM”: если GEMM даёт ~80–90% от пика, а attention заметно ниже (например 30–50% на forward), проблема чаще в планировании потоков/памяти, а не в FLOPs. Это превращает “оптимизацию attention” в управляемый KPI: повышаем загрузку SM и сокращаем лишние обращения к shared memory/HBM.
    [GPU / Производительность]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!