DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое

29.09.2025 • TechCrunch

DeepSeek представила экспериментальную модель V3.2-exp с механизмом DeepSeek Sparse Attention, нацеленным на радикальное удешевление инференса в сценариях с длинным контекстом. Подход адресует не стоимость обучения, а операционные расходы на выполнение запросов.

Архитектура строится на двух узлах: «lightning indexer» выбирает приоритетные фрагменты из большого окна контекста, а «fine-grained token selection» пропускает в ограниченное окно внимания только релевантные токены. Это позволяет обрабатывать длинные последовательности без линейного роста серверной нагрузки.

По предварительным тестам DeepSeek, цена простого API-вызова в long-context режимах может снижаться до ~вдвое. Модель доступна в формате open-weight на Hugging Face и сопровождается научной статьёй на GitHub; ожидаются независимые бенчмарки.

Контекст: это часть тренда на снижение inference-cost, где оптимизируют базовую трансформерную архитектуру. Компания из Китая ранее прославилась моделью R1 (усиленное обучение, низкая себестоимость тренировки); теперь делает более прагматичный вклад — инженерные улучшения внимания.

Эффект: потенциальное удешевление long-context LLM-кейсов (аналитика документов, код, поиск по базам).
Ограничения: результаты предварительные, требуется внешняя валидация на реальных нагрузках.

PubMag

DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое

Читайте также