«Яндекс» опубликовал крупнейший датасет для рекомендаций — Yambda

«Яндекс» опубликовал в опенсорс крупнейший в истории компании датасет для рекомендательных систем — Yambda (Yandex music billion-interactions dataset). Датасет включает анонимизированные данные об агрегированных взаимодействиях пользователей «Яндекс Музыки» — прослушивания, лайки и дизлайки — и содержит три версии: полную (5 млрд записей), а также укороченные (500 млн и 50 млн записей), что позволяет выбрать вариант под доступные ресурсы.

Данные доступны на HuggingFace, а код для оценки — на GitHub. Основная цель публикации — ускорить научные исследования и развитие алгоритмов персонализации, устранить разрыв между академической наукой и практическими задачами индустрии. По словам Александра Плошкина («Яндекс»), открытые и масштабные датасеты критичны для совершенствования рекомендательных систем, влияющих на поиск товаров, контента и других персонализированных сервисов.

Yambda построен на обезличенных ID — все данные защищены и не позволяют деанонимизировать пользователей.

← Назад в лентуЧитать оригинал →