DeepSeek научила ИИ не растрачивать внимание впустую

Китайская представила экспериментальную LLM DeepSeek-V3.2-Exp с механизмом DeepSeek Sparse Attention (DSA), нацеленным на снижение вычислительных затрат при работе с длинными контекстами. По заявлению разработчиков, качество ответов сохранено на уровне V3.1 при росте эффективности обработки больших документов.

DSA разрежает внимание трансформера: вместо полного пересчёта всех связей между токенами модель динамически фокусируется на значимых фрагментах контекста. Такой подход уменьшает потребление памяти и времени на длинных последовательностях и ускоряет задачи, где классические методы создают избыточные вычисления.

Доступность: бесплатная демо-версия и публикация на Hugging Face; интеграция через библиотеку Transformers. Командам рекомендуют тестировать сценарии расширенного контекста — суммаризацию длинных статей с последующими уточняющими вопросами.

Релиз позиционируется как промежуточный шаг перед полноформатной версией и как способ снизить «порог входа» для исследователей и разработчиков без мощного железа, упрощая локальный запуск LLM. В контексте фокуса на эффективности напоминается и прошлый ориентир: обучение модели R1 оценивалось примерно в $294 тыс.

Ключевые инсайты из новости (по версии ChatGPT)
  • Sparse Attention для длинных контекстов: смысл и выгода: Механизм DeepSeek Sparse Attention вычисляет внимание не по всем токенам, а по значимым, что снижает память/латентность при работе с длинными документами без заявленной потери качества относительно V3.1. Для PubMag это означает возможность обрабатывать цельные тексты (новости, лонгриды, лог-файлы) с меньшими затратами, сокращая количество принудительных чанков.
    [архитектура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!