DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое

DeepSeek представила экспериментальную модель V3.2-exp с механизмом DeepSeek Sparse Attention, нацеленным на радикальное удешевление инференса в сценариях с длинным контекстом. Подход адресует не стоимость обучения, а операционные расходы на выполнение запросов.

Архитектура строится на двух узлах: «lightning indexer» выбирает приоритетные фрагменты из большого окна контекста, а «fine-grained token selection» пропускает в ограниченное окно внимания только релевантные токены. Это позволяет обрабатывать длинные последовательности без линейного роста серверной нагрузки.

По предварительным тестам DeepSeek, цена простого API-вызова в long-context режимах может снижаться до ~вдвое. Модель доступна в формате open-weight на Hugging Face и сопровождается научной статьёй на GitHub; ожидаются независимые бенчмарки.

Контекст: это часть тренда на снижение inference-cost, где оптимизируют базовую трансформерную архитектуру. Компания из Китая ранее прославилась моделью R1 (усиленное обучение, низкая себестоимость тренировки); теперь делает более прагматичный вклад — инженерные улучшения внимания.

  • Эффект: потенциальное удешевление long-context LLM-кейсов (аналитика документов, код, поиск по базам).
  • Ограничения: результаты предварительные, требуется внешняя валидация на реальных нагрузках.

Читайте также

  1. DeepSeek научила ИИ не растрачивать внимание впустую
  2. Как научить LLM исправлять код без лишних изменений
  3. Динамический ресайзинг изображений (Image Previewer)
  4. Как тимлид заменил десятки вкладок на файловую систему и Claude Code
  5. Programmatic-миротворчество
Ключевые инсайты из новости (по версии ChatGPT)
  • DeepSeek Sparse Attention: двухступенчатое внимание: Паттерн объединяет lightning indexer (отбор релевантных фрагментов окна) и fine-grained token selection (отбор токенов внутри этих фрагментов). Такой каскад снижает объём активного внимания и позволяет работать с длинным контекстом без пропорционального роста вычислений.
    [архитектура/модели]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!