[bigdata team] Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive
395₽
Часть 1.
HDFS, Map Reduce, Hive
В этом модуле вы изучите:
вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;
распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;
чтение и запись в HDFS. HDFS APIs: Web, shell.
Hadoop Streaming;
элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
приложения с несколькими Hadoop-задачами;
тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);
задачи с несколькими входами. Joins в Hadoop.
архитектура Hive, виды таблиц, форматы хранения данных;
трансляция Hive-запросов в MapReduce-задачи;
сериализация и десериализация;
тюнинг Join’ов в Hive;
партиционирование, бакетирование, семплирование;
User defined functions, Hive Streaming.