Хабр публикует конспект первой главы классической книги «Бизнес-аналитика: от данных к знаниям» (2009), который остаётся актуальным для входа в data/ML. Текст напоминает: аналитика начинается с проверяемой гипотезы и модели, а современный «информационный подход» рассматривает систему как «чёрный ящик» с входами/выходами и итеративной настройкой по обратной связи.Дан полный контур KDD: формирование выборки (SQL/сэмплинг), очистка (пропуски/дубликаты/выбросы), трансформации (агрегации, окна, типы), data mining (поиск закономерностей) и интерпретация (в т.ч. пост-hoc для непрозрачных моделей). Разграничены data mining и ML: ML — подмножество методов внутри DM; feature engineering — конструирование признаков.Парадигмы: с учителем (классификация/регрессия) и без учителя (кластеризация/ассоциации).Обучающие наборы: train/validation/test; кросс-валидация для подбора гиперпараметров.Риски качества: переобучение vs недообучение; цель — обобщение.Критерии отбора алгоритмов: вычислительная сложность (Big-O), устойчивость к шуму, точность, масштабируемость — неизбежны компромиссы.Итог: системный процесс от гипотезы и чистых данных к интерпретируемым моделям даёт повторяемые бизнес-результаты и служит базой для зрелых ML-практик.