130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
Публикация на «
Хабре» собирает 130+ проверенных датасетов и площадок для ML и даёт практические правила отбора. Ключевые рекомендации: объём данных должен превышать число обучаемых параметров модели в 10–100 раз; обязательное разбиение на train/valid/test без дубликатов; при дисбалансе классов — балансировка обучающей выборки и/или взвешивание лосса. Отдельно подчёркнуты риски лицензий и приватности.
Платформы и масштабы:
Google Dataset Search индексирует 25+ млн наборов; Data.gov — 200 тыс.+ правительственных датасетов; CERN Open Data — 2 ПБ; Common Crawl — базовый источник веб-текста для LLM. По CV приводятся эталоны от MNIST и CIFAR до ImageNet; для сегментации — SA-1B (11 млн изображений, 1,1 млрд масок). Для детекции — MS COCO, Open Images; для автономного вождения — BDD100K (100 тыс.+ видео, ~1100 ч), Waymo, nuScenes. В видео/действиях —
YouTube-8M (7 млн видео, 4716 классов), Kinetics-700; в речи — LibriSpeech (1000 ч), VoxPopuli (400 тыс. ч неразмеченной, 1800 ч размеченной), GigaSpeech (10 тыс. ч).
- Ресурсы для NLP: SQuAD 1.1/2.0, MS MARCO, Enron,
Amazon/Yelp Reviews, UD. - Аудио/музыка: AudioSet (2+ млн фрагментов), MUSDB18 для source separation.
- Вывод: подбор датасетов — критичный этап ML-проектов; приоритет — качество аннотаций, релевантность задаче, юридическая чистота.
Читайте также
Lamoda запускает «Г(ии)д по стилю» для онлайн-примерки вещей
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Лучшие практики работы с агентами для написания кода
«Вам нужны партнеры, а не подрядчики»: как запустить ИИ-проект, который принесет реальную пользу бизнесу
- Правило размера датасета к параметрам модели: Для устойчивого обучения число примеров в датасете должно как минимум в 10–100 раз превышать число обучаемых параметров. В прикладных задачах это часто важнее усложнения архитектуры: большие данные компенсируют простоту модели.
[методология]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться