[Skillbox] Аналитик данных на Python [Алексей Никушин]

195

Освойте Python и делайте свою работу в десятки раз быстрее. Собирайте и обрабатывайте массивы данных, делайте сложные вычисления и стройте отчеты за минуты. Автоматизируйте рутину и спокойно занимайтесь тем, что нравится.

Применяя Python, вы становитесь до 80% более производительным. Python — это язык скриптов, он применим абсолютно в любых областях, где речь идет о данных и их обработке

Особенность нашего курса — индуктивное обучение на основе реальных кейсов. Это значит, что вместо скучной теории в самом начале у нас будет много практики.

Аналитик
Обрабатывает 10 000 строк Exсel вручную, анализирует метрики и готовит отчет. Рабочий процесс займет почти неделю.

Аналитик с Python
Пишет скрипт, который обрабатывает данные, составляет отчет и отправляет его на почту руководителю. На все уйдет — 2 часа.

Модуль 1.Настройка окружения и базовые знания языка Python
Главной задачей на текущем уроке будет установить Python на локальную машину (Mac / Windows).
Познакомимся с Jupyter notebook как ключевым окружением для аналитической разработки на Python.
Познакомимся с базовыми методами, типами данных и особенностями языка Python, которые делают его приятным способом для проведения аналитики.

Модуль 2.Знакомство с ключевыми аналитическими библиотеками Pandas и NumPy
Обзор ключевых типов данных и методов для работы с ними в библиотеке NumPy и Pandas, пишем первый простой скрипт для нахождения пересечения данных в 2 массивах. Познакомимся со всеми ключевыми методами работы и манипуляциями с табличными видами данных (например, сортировка массивов, изменение значений, пересечения, выделения уникальных значений, объединение таблиц, удаление дубликатов).

Модуль 3.Автоматизация отчетности в Pandas
В текущем модуле мы рассмотрим практическую задачу формирования отчета по среднему чеку c большим массивом данных (>1 млн. строк) в разрезе категорий по нескольким направлениям деятельности компании, а также отчет о месячном оттоке клиентов. Запишем наши результаты в привычный Excel и отправим по почте.

Модуль 4.Визуализация данных с помощью библиотек Matplotlib и Seaborn
В текущем модуле мы рассмотрим основные библиотеки для визуального представления данных, а также дополним нашу отчетность. Пройдемся по основным видам графиков, посмотрим, в какой ситуации каждый из них может быть применим. Дополним наши возможности в составлении отчетности графической репрезентацией.

Модуль 5.Функции, файлы, базы данных

  • Функции и управление потоками
  • Работа с файлами
  • Работа с базами данных

Модуль 6.API Яндекс Метрика

  • Подключение к API. Запросы
  • Преобразование данных в табличный вид

Модуль 7.API Google Analytics

  • Подключение к Reporting API
  • Запрашиваем данные
  • Ограничения запросов
  • Работа с отчетами

Модуль 8.API VK

  • Описание VK API. Регистрация приложения. Получение токена
  • Структура запроса и ответа
  • Ограничения VK API. Описание ошибок
  • Методы API VK
  • Объекты API VK
  • Примеры запросов

Модуль 9.Парсинг сайтов на Python

  • Введение в скрейпинг
  • Знакомство с языком bash
  • Создание краулера
  • Разбор верстки сайта
  • Работа с XML
  • Скрейпинг интернет-магазина

Модуль 10.Введение в статистику. Интервальные оценки

  • Введение в статистику
  • Выборочные методы оценки статистик
  • ЦПТ и общая механика доверительных интервалов
  • Интервальные оценки средних, доли и бустреп

Модуль 11.A/B-тестирование с помощью Python

  • Гипотезы
  • Параметрические оценки
  • Непараметрические оценки
  • Критерии и проверки на нормальность

Модуль 12.ETL на Python

  • Настраиваем инфраструктуру
  • Запуск программы
  • Разбираем компоненты кода программы
  • Cron – автоматизация рутины

Модуль 13.Дашборды

  • Установка сервиса Dash
  • Разбираем компоненты сервиса Dash
  • Взаимодействие компонентов
  • Публикация приложения на сервере Google
  • Настраиваем виртуальную машину