130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Публикация на «» собирает 130+ проверенных датасетов и площадок для ML и даёт практические правила отбора. Ключевые рекомендации: объём данных должен превышать число обучаемых параметров модели в 10–100 раз; обязательное разбиение на train/valid/test без дубликатов; при дисбалансе классов — балансировка обучающей выборки и/или взвешивание лосса. Отдельно подчёркнуты риски лицензий и приватности.

Платформы и масштабы: Dataset Search индексирует 25+ млн наборов; Data.gov — 200 тыс.+ правительственных датасетов; CERN Open Data — 2 ПБ; Common Crawl — базовый источник веб-текста для LLM. По CV приводятся эталоны от MNIST и CIFAR до ImageNet; для сегментации — SA-1B (11 млн изображений, 1,1 млрд масок). Для детекции — MS COCO, Open Images; для автономного вождения — BDD100K (100 тыс.+ видео, ~1100 ч), Waymo, nuScenes. В видео/действиях — -8M (7 млн видео, 4716 классов), Kinetics-700; в речи — LibriSpeech (1000 ч), VoxPopuli (400 тыс. ч неразмеченной, 1800 ч размеченной), GigaSpeech (10 тыс. ч).

  • Ресурсы для NLP: SQuAD 1.1/2.0, MS MARCO, Enron, /Yelp Reviews, UD.
  • Аудио/музыка: AudioSet (2+ млн фрагментов), MUSDB18 для source separation.
  • Вывод: подбор датасетов — критичный этап ML-проектов; приоритет — качество аннотаций, релевантность задаче, юридическая чистота.
Ключевые инсайты из новости (по версии ChatGPT)
  • Правило размера датасета к параметрам модели: Для устойчивого обучения число примеров в датасете должно как минимум в 10–100 раз превышать число обучаемых параметров. В прикладных задачах это часто важнее усложнения архитектуры: большие данные компенсируют простоту модели.
    [методология]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!