Основы аналитики и ML простым языком. Часть 1
Хабр публикует конспект первой главы классической книги «Бизнес-аналитика: от данных к знаниям» (2009), который остаётся актуальным для входа в data/ML. Текст напоминает: аналитика начинается с проверяемой гипотезы и модели, а современный «информационный подход» рассматривает систему как «чёрный ящик» с входами/выходами и итеративной настройкой по обратной связи.
Дан полный
контур KDD: формирование выборки (SQL/сэмплинг), очистка (пропуски/дубликаты/выбросы), трансформации (агрегации, окна, типы), data mining (поиск закономерностей) и интерпретация (в т.ч. пост-hoc для непрозрачных моделей). Разграничены data mining и ML: ML — подмножество методов внутри DM; feature engineering — конструирование признаков.
- Парадигмы: с учителем (классификация/регрессия) и без учителя (кластеризация/ассоциации).
- Обучающие наборы: train/validation/test; кросс-валидация для подбора гиперпараметров.
- Риски качества: переобучение vs недообучение; цель — обобщение.
- Критерии отбора алгоритмов: вычислительная сложность (Big-O), устойчивость к шуму, точность, масштабируемость — неизбежны компромиссы.
Итог: системный процесс от гипотезы и чистых данных к интерпретируемым моделям даёт повторяемые бизнес-результаты и служит базой для зрелых ML-практик.
Читайте также
Книги, видео и курсы для изучения машинного обучения
Продакт в 2026 году: чем занимается, как им стать и почему цифровому бизнесу без него никуда
Как я локально тестировал новый Qwen 3.6 и Gemma 4
Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты
Opus 4.7, Codex управляет ПК, TTS от Google, а бренд кроссовок переходит в ИИ
- KDD как стандарт аналитического контура: Полный цикл KDD (отбор → очистка → трансформация → data mining → интерпретация) следует фиксировать как обязательный процесс для всех аналитических задач. Это снижает разнобой в пайплайнах PubMag/LibTracker и повышает воспроизводимость результатов.
[процесс]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться