DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое
DeepSeek представила экспериментальную модель V3.2-exp с механизмом DeepSeek Sparse Attention, нацеленным на радикальное удешевление инференса в сценариях с длинным контекстом. Подход адресует не стоимость обучения, а операционные расходы на выполнение запросов.
Архитектура строится на двух узлах: «lightning indexer» выбирает приоритетные фрагменты из большого окна контекста, а «fine-grained token selection» пропускает в ограниченное окно внимания только релевантные токены. Это позволяет обрабатывать длинные последовательности без линейного роста серверной нагрузки.
По предварительным тестам DeepSeek, цена простого API-вызова в long-context режимах может снижаться до ~вдвое. Модель доступна в формате open-weight на Hugging Face и сопровождается научной статьёй на GitHub; ожидаются независимые бенчмарки.
Контекст: это часть тренда на снижение inference-cost, где оптимизируют базовую трансформерную архитектуру. Компания из Китая ранее прославилась моделью R1 (усиленное обучение, низкая себестоимость тренировки); теперь делает более прагматичный вклад — инженерные улучшения внимания.
- Эффект: потенциальное удешевление long-context LLM-кейсов (аналитика документов, код, поиск по базам).
- Ограничения: результаты предварительные, требуется внешняя валидация на реальных нагрузках.
Читайте также
DeepSeek научила ИИ не растрачивать внимание впустую
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Лучшие практики работы с агентами для написания кода
Lamoda запускает «Г(ии)д по стилю» для онлайн-примерки вещей
«Вам нужны партнеры, а не подрядчики»: как запустить ИИ-проект, который принесет реальную пользу бизнесу
- DeepSeek Sparse Attention: двухступенчатое внимание: Паттерн объединяет lightning indexer (отбор релевантных фрагментов окна) и fine-grained token selection (отбор токенов внутри этих фрагментов). Такой каскад снижает объём активного внимания и позволяет работать с длинным контекстом без пропорционального роста вычислений.
[архитектура/модели]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
TechCrunch