«Яндекс» опубликовал крупнейший датасет для рекомендаций — Yambda

«Яндекс» опубликовал в опенсорс крупнейший в истории компании датасет для рекомендательных систем — Yambda (Yandex music billion-interactions dataset). Датасет включает анонимизированные данные об агрегированных взаимодействиях пользователей «Яндекс Музыки» — прослушивания, лайки и дизлайки — и содержит три версии: полную (5 млрд записей), а также укороченные (500 млн и 50 млн записей), что позволяет выбрать вариант под доступные ресурсы.

Данные доступны на HuggingFace, а код для оценки — на GitHub. Основная цель публикации — ускорить научные исследования и развитие алгоритмов персонализации, устранить разрыв между академической наукой и практическими задачами индустрии. По словам Александра Плошкина («Яндекс»), открытые и масштабные датасеты критичны для совершенствования рекомендательных систем, влияющих на поиск товаров, контента и других персонализированных сервисов.

Yambda построен на обезличенных ID — все данные защищены и не позволяют деанонимизировать пользователей.

Читайте также

  1. Русбейс«Яндекс Маркет» запустил в приложении чат с ассистентом на базе ИИ
  2. Яндекс Практикум обучит 10 тысяч AI-специалистов к 2027 году и внедрит ИИ-модули во все курсы
  3. «Яндекс Маркет» внедрил AI-ассистента для сотрудников пунктов выдачи заказов
  4. Yandex B2B Tech запустил платформу YTsaurus для хранения и обработки эксабайтных данных
  5. Deloitte Tech Trends 2026: почему искусственный интеллект требует не автоматизации, а пересборки бизнеса
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!