Программа курса :
Модуль 1 — Основы Python для работы с данными
Вы научитесь пользоваться базовыми инструментами Python. Для студентов без опыта в программировании модуль предполагает интенсивную самостоятельную работу. По ходу занятия преподаватель даст много полезных дополнительных библиотек и методов, которые ускорят работу с кодом, оставив больше времени на аналитические задачи.
1. Вводные видео-уроки по установке, синтаксису и функциям Python
2. Основы Python и Git
3. Базовые типы данных и циклы
4. Функции и классы
5. Продвинутые типы данных: массивы, множества, словари
Навыки, которые вы получите
1. Научитесь работать в Jupyter-ноутбуке
2. Освоите чтение файлов и запись данных в файлы
3. Сможете делать первичную проверку данных на корректность и обработку ошибок
4. Научитесь работать с датами с библиотекой DateTime
5. Освоите работу с JSON-форматом
6. Научитесь импортировать данные в Excel
7. Познакомитесь с библиотекой DateTime
Модуль 2 Знакомство с основными библиотеками для анализа данных
Вы научитесь работать с главными аналитическими библиотеками, а визуализации помогут быстро находить зависимости и корреляции. Одно из больших преимуществ языка Python — это большое и сильное сообщество, которое ежедневно пополняет язык простыми готовыми решениями.
1. numpy и scipy
2. pandas
3. Визуализация данных: seaborn, plotly, matplotlib
4. Получение данных с внешних сайтов и API
5. Data mining и парсинг
Навыки, которые вы получите
1. Сможете подготовить визуальные отчёты
2. Освоите эксплоративный анализ данных
3. Научитесь работать с матрицами и векторами в Python
4. Научитесь работать с pandas в таблицах
5. Освоите работу с элементами массива разных размерностей в numpy
6. Автоматизация получения данных из внешних источников
7. Автоматизация парсинга с сайтов
Модуль 3 — Статистика в Python
В этом модуле вы познакомитесь со статистикой: именно она помогает закопаться глубже в данные, чтобы найти интересные связи и эффективно генерировать гипотезы. Вас ждут не только среднее, медиана и квартили, но и одномерный и многомерный анализ, коллинеарность. Вы научитесь рассчитывать необходимую выборку и доверительный интервал для стат. значимости теста и проектировать дизайн A/B-тестов.
1. Основы описательной статистики, виды распределений в Python
2. Центральная предельная теорема и статистический анализ данных в Python
3. Основные статистические тесты и проверка гипотез
4. Кейс-стади. Статистические показатели в Python
Навыки, которые вы получите
1. Поймёте основы описательной статистики
2. Научитесь проводить основные статистические тесты (z-test, f-test, chi-2 test)
3. Освоите проектирование экспериментов
4. Научитесь проводить анализ A/B-тестов
5. Научитесь интерпретировать исходные данные для нахождения зависимостей
6. Применение математических моделей
Модуль 4 Feature engineering и предобработка данных
Вы изучите инструменты выбора и оценки фичей, научитесь оптимизировать их количество. Новые знания помогут плотнее общаться с разработкой в продукте и быстро вычленять ошибки в их логике. Также вы приобщитесь к главной библиотеке data scientists — sklearn для feature selection.
1. Проверка и очистка данных с помощью pandas и numpy
2. Проведение анализа и рекурсивного feature selection и на базе моделей
3. Методы оценки значимости и отбора признаков и их использование
4. «Проклятие размерности», основные алгоритмы и принципы их работы
5. Использование алгоритмов sklearn
Навыки, которые вы получите
1. Освоите описание основных проблем данных
2. Научитесь проверке данных на полноту, целостность, валидность, наличие шумов, ошибок и пропусков
3. Сможете очистить данные с помощью numpy и pandas
4. Разберётесь с сокращением размерности данных алгоритмами PCA, LDA, NMF с помощью sklearn
5. Научитесь выбору и оценке фич
Лабораторные работы
Кроме домашних заданий, в которых вы отрабатываете отдельные навыки, в курсе будет две проверочные точки. Они помогут вам оценить свои силы в комплексных задачах.
1. С помощью статистики изучите данные небольшого датасета на 200+ автомобилей по 26 параметрам, с помощью визуализаций выведете закономерности и протестируете несколько статистических гипотез.
2. Вместе с преподавателем подготовите датасет на 1500 строк к анализу, оцените и выберете из 80 признаков нужные и спрогнозируете стоимостную категорию дома.
Диплом
В рамках дипломного проекта вы будете работать с датасетом на медицинскую тематику. Вы не только самостоятельно подготовите данные для анализа в Python, но и напишете алгоритм, который предсказывает вероятность болезни у пациента по разным признакам.
Дипломная работа выполняется самостоятельно под руководством экспертов курса и позволяет закрепить весь спектр знаний и навыков, полученных на программе.