[Stepik] Практический Machine Learning [Елена Кантонистова]

65

Чему вы научитесь:

  • Изучите классические и современные алгоритмы машинного обучения
  • Повторите или освоите математические подходы, необходимые для анализа данных

О курсе:

После прохождения курса вы сможете полностью решать классические задачи анализа данных: начиная от сбора и хранения данных и заканчивая внедрением обученных моделей в продакшн.

Важно! Курс находится в процессе наполнения.

Программа курса:

  1. О курсе
  2. Инструменты
  3. Kaggle

Знакомство с машинным обучением

  1. Введение
  2. Основные понятия машинного обучения
  3. Типы задач в машинном обучении
  4. Схема проекта по машинному обучению
  5. Оценка обобщающей способности модели
  6. Домашнее задание
  7. Разведочный анализ данных

Линейные модели регрессии

  1. Основы линейной регрессии
  2. Регуляризация
  3. Практические особенности линейной регрессии
  4. Feature engineering
  5. Метрики качества регрессии
  6. Домашнее задание

Линейные модели классификации — 1

  1. Переход от регрессии к классификации
  2. Задача оценивания вероятностей, логистическая регрессия
  3. Базовые метрики классификации
  4. Домашнее задание

Линейные модели классификации — 2

  1. Метод опорных векторов
  2. Ядровой метод опорных векторов
  3. Продвинутые (интегральные) метрики классификации
  4. Домашнее задание

Многоклассовая классификация

  1. Многоклассовая и multilabel-классификация
  2. Метод ближайших соседей
  3. Быстрый поиск соседей
  4. Калибровка вероятностей

Решающие деревья и их композиции

  1. Решающее дерево
  2. Тонкости решающих деревьев
  3. Разложение ошибки на смещение и разброс
  4. Бэггинг. Случайный лес
  5. Бустинг. Градиентный бустинг над решающими деревьями
  6. Современные имплементации градиентного бустинга

Обработка признаков и работа с выбросами

  1. Работа с пропущенными значениями
  2. Поиск аномалий
  3. Кодирование категориальных признаков

Снижение размерности данных

  1. Методы отбора признаков
  2. Метод главных компонент
  3. Сингулярное разложение
  4. Линейный дискриминантный анализ
  5. Методы визуализации данных

Кластеризация данных

  1. K-means
  2. Иерархическая кластеризация
  3. DBSCAN, HDBSCAN
  4. Метрики качества кластеризации
  5. Графовая кластеризация

Интерпретируемость ML-моделей

  1. SHAP
  2. LIME

Рекомендательные системы и ранжирование

  1. Коллаборативная фильтрация
  2. Матричные разложения
  3. Факторизационные машины
  4. ML-подход
  5. Метрики качества ранжирования и рекомендаций
  6. Ранжирование

AutoML

  1. Автоматический подбор гиперпараметров: Optuna
  2. Фреймворк для AutoML – H2O
  3. Обзор других фреймворков (TPOT, auto-sklearn, MLBox)

Прогнозирование временных рядов

  1. Особенности работы с временными рядами
  2. Статистические методы прогноза временных рядов
  3. Адаптивные модели
  4. Прогнозирование временных рядов с помощью ML
  5. Библиотеки для анализа временных рядов: prophet