DeepSeek научила ИИ не растрачивать внимание впустую

Китайская представила экспериментальную LLM DeepSeek-V3.2-Exp с механизмом DeepSeek Sparse Attention (DSA), нацеленным на снижение вычислительных затрат при работе с длинными контекстами. По заявлению разработчиков, качество ответов сохранено на уровне V3.1 при росте эффективности обработки больших документов.

DSA разрежает внимание трансформера: вместо полного пересчёта всех связей между токенами модель динамически фокусируется на значимых фрагментах контекста. Такой подход уменьшает потребление памяти и времени на длинных последовательностях и ускоряет задачи, где классические методы создают избыточные вычисления.

Доступность: бесплатная демо-версия и публикация на Hugging Face; интеграция через библиотеку Transformers. Командам рекомендуют тестировать сценарии расширенного контекста — суммаризацию длинных статей с последующими уточняющими вопросами.

Релиз позиционируется как промежуточный шаг перед полноформатной версией и как способ снизить «порог входа» для исследователей и разработчиков без мощного железа, упрощая локальный запуск LLM. В контексте фокуса на эффективности напоминается и прошлый ориентир: обучение модели R1 оценивалось примерно в $294 тыс.

Читайте также

  1. DeepSeek выпустила модель «разреженного внимания», которая сокращает стоимость API вдвое
  2. Amazon запустила AI Factories для суверенного ИИ на инфраструктуре клиентов
  3. Мульти-модельная оркестрация LLM: архитектура маршрутизации, которая снизила затраты в 117 раз
  4. Как выбрать между облаком, арендой GPU и своим железом для LLM-систем
  5. Зачем нужен журналист, если ChatGPT пишет быстрее и дешевле?
Ключевые инсайты из новости (по версии ChatGPT)
  • Sparse Attention для длинных контекстов: смысл и выгода: Механизм DeepSeek Sparse Attention вычисляет внимание не по всем токенам, а по значимым, что снижает память/латентность при работе с длинными документами без заявленной потери качества относительно V3.1. Для PubMag это означает возможность обрабатывать цельные тексты (новости, лонгриды, лог-файлы) с меньшими затратами, сокращая количество принудительных чанков.
    [архитектура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!