Основы аналитики и ML простым языком. Часть 1

публикует конспект первой главы классической книги «Бизнес-аналитика: от данных к знаниям» (2009), который остаётся актуальным для входа в data/ML. Текст напоминает: аналитика начинается с проверяемой гипотезы и модели, а современный «информационный подход» рассматривает систему как «чёрный ящик» с входами/выходами и итеративной настройкой по обратной связи.

Дан полный контур KDD: формирование выборки (SQL/сэмплинг), очистка (пропуски/дубликаты/выбросы), трансформации (агрегации, окна, типы), data mining (поиск закономерностей) и интерпретация (в т.ч. пост-hoc для непрозрачных моделей). Разграничены data mining и ML: ML — подмножество методов внутри DM; feature engineering — конструирование признаков.

  • Парадигмы: с учителем (классификация/регрессия) и без учителя (кластеризация/ассоциации).
  • Обучающие наборы: train/validation/test; кросс-валидация для подбора гиперпараметров.
  • Риски качества: переобучение vs недообучение; цель — обобщение.
  • Критерии отбора алгоритмов: вычислительная сложность (Big-O), устойчивость к шуму, точность, масштабируемость — неизбежны компромиссы.

Итог: системный процесс от гипотезы и чистых данных к интерпретируемым моделям даёт повторяемые бизнес-результаты и служит базой для зрелых ML-практик.

Читайте также

  1. Делаем LLM-советника по акциям РФ как в Alfa Arena
  2. Выручка крупнейших компаний онлайн-образования выросла на 12%
  3. Где учиться Data Science: лучшие блоги и Telegram-каналы для практиков и начинающих
  4. Мошенническая «десятина» Meta; ИИ выбивает скидки у SaaS
  5. Децентрализованный ИИ: как рой нейросетей побеждает большие модели
Ключевые инсайты из новости (по версии ChatGPT)
  • KDD как стандарт аналитического контура: Полный цикл KDD (отбор → очистка → трансформация → data mining → интерпретация) следует фиксировать как обязательный процесс для всех аналитических задач. Это снижает разнобой в пайплайнах PubMag/LibTracker и повышает воспроизводимость результатов.
    [процесс]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!