«Яндекс» опубликовал крупнейший датасет для рекомендаций — Yambda
«Яндекс» опубликовал в опенсорс крупнейший в истории компании датасет для рекомендательных систем — Yambda (Yandex music billion-interactions dataset). Датасет включает анонимизированные данные об агрегированных взаимодействиях пользователей «Яндекс Музыки» — прослушивания, лайки и дизлайки — и содержит три версии: полную (5 млрд записей), а также укороченные (500 млн и 50 млн записей), что позволяет выбрать вариант под доступные ресурсы.
Данные доступны на HuggingFace, а код для оценки — на GitHub. Основная цель публикации — ускорить научные исследования и развитие алгоритмов персонализации, устранить разрыв между академической наукой и практическими задачами индустрии. По словам Александра Плошкина («Яндекс»), открытые и масштабные датасеты критичны для совершенствования рекомендательных систем, влияющих на поиск товаров, контента и других персонализированных сервисов.
Yambda построен на обезличенных ID — все данные защищены и не позволяют деанонимизировать пользователей.
Читайте также
- Русбейс«Яндекс Маркет» запустил в приложении чат с ассистентом на базе ИИ
Яндекс Практикум обучит 10 тысяч AI-специалистов к 2027 году и внедрит ИИ-модули во все курсы
«Яндекс Маркет» внедрил AI-ассистента для сотрудников пунктов выдачи заказов
Yandex B2B Tech запустил платформу YTsaurus для хранения и обработки эксабайтных данных
Четыре сценария развития российского ИТ-рынка