DeepSeek научила ИИ не растрачивать внимание впустую

01.10.2025 • ИНК

Китайская DeepSeek представила экспериментальную LLM DeepSeek-V3.2-Exp с механизмом DeepSeek Sparse Attention (DSA), нацеленным на снижение вычислительных затрат при работе с длинными контекстами. По заявлению разработчиков, качество ответов сохранено на уровне V3.1 при росте эффективности обработки больших документов.

DSA разрежает внимание трансформера: вместо полного пересчёта всех связей между токенами модель динамически фокусируется на значимых фрагментах контекста. Такой подход уменьшает потребление памяти и времени на длинных последовательностях и ускоряет задачи, где классические методы создают избыточные вычисления.

Доступность: бесплатная демо-версия и публикация на Hugging Face; интеграция через библиотеку Transformers. Командам рекомендуют тестировать сценарии расширенного контекста — суммаризацию длинных статей с последующими уточняющими вопросами.

Релиз позиционируется как промежуточный шаг перед полноформатной версией и как способ снизить «порог входа» для исследователей и разработчиков без мощного железа, упрощая локальный запуск LLM. В контексте фокуса на эффективности напоминается и прошлый ориентир: обучение модели R1 оценивалось примерно в $294 тыс.

PubMag

DeepSeek научила ИИ не растрачивать внимание впустую

Читайте также