Основы аналитики и ML простым языком. Часть 1

06.11.2025 • Хабр

Хабр публикует конспект первой главы классической книги «Бизнес-аналитика: от данных к знаниям» (2009), который остаётся актуальным для входа в data/ML. Текст напоминает: аналитика начинается с проверяемой гипотезы и модели, а современный «информационный подход» рассматривает систему как «чёрный ящик» с входами/выходами и итеративной настройкой по обратной связи.

Дан полный контур KDD: формирование выборки (SQL/сэмплинг), очистка (пропуски/дубликаты/выбросы), трансформации (агрегации, окна, типы), data mining (поиск закономерностей) и интерпретация (в т.ч. пост-hoc для непрозрачных моделей). Разграничены data mining и ML: ML — подмножество методов внутри DM; feature engineering — конструирование признаков.

Парадигмы: с учителем (классификация/регрессия) и без учителя (кластеризация/ассоциации).
Обучающие наборы: train/validation/test; кросс-валидация для подбора гиперпараметров.
Риски качества: переобучение vs недообучение; цель — обобщение.
Критерии отбора алгоритмов: вычислительная сложность (Big-O), устойчивость к шуму, точность, масштабируемость — неизбежны компромиссы.

Итог: системный процесс от гипотезы и чистых данных к интерпретируемым моделям даёт повторяемые бизнес-результаты и служит базой для зрелых ML-практик.

PubMag

Основы аналитики и ML простым языком. Часть 1

Читайте также