Программа
30+ онлайн-уроков, более 65 часов обучающего контента и практика после каждого занятия
Длительность: 5 месяцев.
Модуль 1. Теория вероятностей и математическая статистика
Модуль 2. Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
Модуль 3. Библиотеки Python для Data Science: продолжение
Модуль 4. Алгоритмы анализа данных
Модуль 5. Системы машинного обучения в Production
Почему стоит изучить машинное обучение?
За два года спрос на Data Scientist-ов вырос в два раза*. С помощью методов машинного обучения они строят прогнозы и повышают эффективность бизнес-процессов в любой отрасли. Получите востребованную профессию и зарабатывайте
от 100 000 рублей в месяц.
Что полезного в курсе?
Много практики
Вы решите пять проектных задач с применением ML: предсказание цены на недвижимость, модель кредитного скоринга и другие.
Живые занятия
В курсе 90% вебинаров с преподавателями.
Материалы
После занятий у вас останутся записи, методические материалы и готовый код, доступные в любое время.
Кому точно стоит участвовать
— Начинающим Data Scientist-ам
Систематизируете и углубите знания, пообщаетесь с экспертами и пополните резюме практическими проектами
— Аналитикам
Сможете не ограничиваться базовой аналитикой и внедрять модели Machine Learning, прогнозирующие различные показатели
— Разработчикам
Перейдете в сферу Data Science, повысите уровень дохода и будете решать интересные задачи
Математикам
Примените знания к новым задачам и освоите востребованную профессию
Программа
30+ онлайн-уроков, более 65 часов обучающего контента и практика после каждого занятия

Программа
Теория вероятностей и математическая статистика

Случайные события. Условная вероятность. Формула Байеса. Независимые испытания

Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона

Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных

Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема

Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

Многомерный статистический анализ. Линейная регрессия

Дисперсионный анализ. Логистическая регрессия

Курсовой проект
Разведочный анализ данных (EDA) на основе выбранного датасета: визуализация, корреляционный, дисперсионный и факторный анализ
Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn

Введение в курс. Вебинар

Вычисления с помощью Numpy. Работа с данными в Pandas. Видеоурок

Вычисления с помощью Numpy. Работа с данными в Pandas. Вебинар

Визуализация данных в Matplotlib. Видеоурок

Визуализация данных в Matplotlib. Вебинар

Обучение с учителем в Scikit-learn. Видеоурок

Обучение с учителем в Scikit-learn. Вебинар

Обучение без учителя в Scikit-learn. Видеоурок

Обучение без учителя в Scikit-learn и введение в итоговый проект. Вебинар

Консультация по итоговому проекту. Вебинар

Курсовой проект
Соревнование на платформе Kaggle по предсказанию цены на недвижимость, решение задачи регрессии
Библиотеки Python для Data Science: продолжение

Введение в задачу классификации. Постановка задачи и подготовка данных

Анализ данных и проверка статистических гипотез

Построение модели классификации

Оценка и интерпретация полученной модели. Обсуждение курсового проекта

Курсовой проект
Соревнование на платформе Kaggle по кредитному скорингу, решение задачи классификации
Алгоритмы анализа данных

Алгоритм линейной регрессии. Градиентный спуск

Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск

Логистическая регрессия. Log Loss

Алгоритм построения дерева решений

Случайный лес

Градиентный бустинг (AdaBoost)

Классификация с помощью KNN. Кластеризация K-means

Снижение размерности данных

Курсовой проект
Участие в одном или двух соревнованиях на Kaggle: предсказать средний балл на экзамене по математике, который получают ученики репетиторов (задача регрессии); предсказать, подойдет ли репетитор для подготовки к экзамену по математике (задача классификации)
Системы машинного обучения в Production

Введение в задачу предсказания оттока. Формализация задачи и сбор сырых данных

Загрузка данных и построение обучающей выборки. Анализ и предобработка датасета. Балансировка классов

Выбор и обучение модели на отобранных признаках. Сравнение качества и оценка модели

Оценка потенциального влияния на бизнес. Масштабирование решения

Подготовка к продакшену. Планировщик задач и перенос проекта из Jupyter в PyCharm

Курсовой проект
Оценка потенциального влияния на бизнес ML-решения, построение модели оттока клиентов в игровых проектах и подготовка кода для Production в PyCharm

[GeekBrains] Машинное обучение [Сергей Ширкин, Федор Ерин]