Основы аналитики и ML простым языком. Часть 1
Хабр публикует конспект первой главы классической книги «Бизнес-аналитика: от данных к знаниям» (2009), который остаётся актуальным для входа в data/ML. Текст напоминает: аналитика начинается с проверяемой гипотезы и модели, а современный «информационный подход» рассматривает систему как «чёрный ящик» с входами/выходами и итеративной настройкой по обратной связи.
Дан полный контур KDD: формирование выборки (SQL/сэмплинг), очистка (пропуски/дубликаты/выбросы), трансформации (агрегации, окна, типы), data mining (поиск закономерностей) и интерпретация (в т.ч. пост-hoc для непрозрачных моделей). Разграничены data mining и ML: ML — подмножество методов внутри DM; feature engineering — конструирование признаков.
- Парадигмы: с учителем (классификация/регрессия) и без учителя (кластеризация/ассоциации).
- Обучающие наборы: train/validation/test; кросс-валидация для подбора гиперпараметров.
- Риски качества: переобучение vs недообучение; цель — обобщение.
- Критерии отбора алгоритмов: вычислительная сложность (Big-O), устойчивость к шуму, точность, масштабируемость — неизбежны компромиссы.
Итог: системный процесс от гипотезы и чистых данных к интерпретируемым моделям даёт повторяемые бизнес-результаты и служит базой для зрелых ML-практик.
Читайте также
Книги, видео и курсы для изучения машинного обучения
Где учиться Data Science: лучшие блоги и Telegram-каналы для практиков и начинающих
Способы сегментации партнёрской сети для развития канальных продаж в IT
Перформанс-маркетинг для начинающих
Как студент MIT ускорил реставрацию картин с помощью ИИ и полимерных масок
- KDD как стандарт аналитического контура: Полный цикл KDD (отбор → очистка → трансформация → data mining → интерпретация) следует фиксировать как обязательный процесс для всех аналитических задач. Это снижает разнобой в пайплайнах PubMag/LibTracker и повышает воспроизводимость результатов.
[процесс]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться