[Otus] Data Scientist. Часть 4. Декабрь 2018 [Александр Сизов, Александр Никитин]
195₽
Что даст вам этот курс
- Знание алгоритмов машинного обучения и понимание принципов их работы.
- Освоение современных методов и инструментов анализа и обработки данных.
- Умение проектировать архитектуру нейросетей, создавать предсказательные модели, работать с ограниченными датасетами, проводить статистические исследования, интерпретировать результаты.
- Способность извлекать из крупных массивов данных ценную информацию и эффективно ее использовать
Введение в машинное обучение
В первом модуле разберем: задачи, которые решают методы машинного обучения; необходимые темы из математического анализа, линейной алгебры и теории вероятности; базовые инструменты анализа данных в python; простые методы машинного обучения (линейная регрессия, логистическая регрессия, lDA, наивный Байес)
Базовые инструменты анализа данных в Python
Участники курса узнают, какие задачи они смогут решать по окончании курса, научатся настраивать рабочее окружение и узнат функционал основных библиотек для работы с данными в python (Numpy, Pandas, Sklearn, API Sklearn)
Необходимые понятия из математического анализа и линейной алгебры
Участники освоят весь необходмый для данного курса материал из линейной алгебры и математического анализа: научатся решать задачи на собсвенные числа и собственные вектора матриц, находить производные функций и матричных выражений и применять это для задач оптимизации функций, эффективно применять данные алгоритмы в python.
Необходимые понятия из теории вероятности
Участники изучат необходимые для курса основы теории вероятности: случайная величина, основные виды распределений случайных величин, научатся считать матожидание, дисперсию случайных величин. Узнают как эффективно делать семплирование из распределений, научатся реализовывать данные алгоритмы на языке python.
Линейная регресия
Участники научатся делать описательный анализ данных с помощью библиотеки pandas и визуализацию данных с помощью различных библиотек python (matplotlib, seaborn, plotly, bokeh)
Feature engineering
1. Отбор признаков.
2. Преобразование исходных данных в подходящий для модели формат
3. Преобразование признаков для повышения точности модели
4. Выбор части признаков
Визуализация
Участники освоят основные библиотеки для визуализации данных в python, будут правильно выбирать виды графиков для визуализации данных разных типов.
Обучение с учителем. Логистическая регресиия
Реализации логистической регрессии с помощью метода стохастического градиентного спуска
Задача классификации. Метод ближайших соседей
Алгоритм kNN. Влияние нормализации данных в kNN. Структуры данных для оптимизации kNN. Кросс валидация. Методы оценки качества алгоритмов классификации.
Сайт: