DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое

представила экспериментальную модель V3.2-exp с механизмом DeepSeek Sparse Attention, нацеленным на радикальное удешевление инференса в сценариях с длинным контекстом. Подход адресует не стоимость обучения, а операционные расходы на выполнение запросов.

Архитектура строится на двух узлах: «lightning indexer» выбирает приоритетные фрагменты из большого окна контекста, а «fine-grained token selection» пропускает в ограниченное окно внимания только релевантные токены. Это позволяет обрабатывать длинные последовательности без линейного роста серверной нагрузки.

По предварительным тестам DeepSeek, цена простого API-вызова в long-context режимах может снижаться до ~вдвое. Модель доступна в формате open-weight на Hugging Face и сопровождается научной статьёй на GitHub; ожидаются независимые бенчмарки.

Контекст: это часть тренда на снижение inference-cost, где оптимизируют базовую трансформерную архитектуру. Компания из Китая ранее прославилась моделью R1 (усиленное обучение, низкая себестоимость тренировки); теперь делает более прагматичный вклад — инженерные улучшения внимания.

  • Эффект: потенциальное удешевление long-context LLM-кейсов (аналитика документов, код, поиск по базам).
  • Ограничения: результаты предварительные, требуется внешняя валидация на реальных нагрузках.
Ключевые инсайты из новости (по версии ChatGPT)
  • DeepSeek Sparse Attention: двухступенчатое внимание: Паттерн объединяет lightning indexer (отбор релевантных фрагментов окна) и fine-grained token selection (отбор токенов внутри этих фрагментов). Такой каскад снижает объём активного внимания и позволяет работать с длинным контекстом без пропорционального роста вычислений.
    [архитектура/модели]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!