ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Данный курс содержит базовые сведения по установке и настройке кластера Hadoop, выполнению основных операций в файловой системе HDFS, запуска задач MapReduce, основам управления ресурсами Hadoop с помощью планировщика задач YARN и знакомит слушателей с концепциями использования Hadoop и компонент экосистемы Hadoop (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.
Курс построен на сквозных практических примерах с тренировочными наборами данных для запуска batch и потоковых (streaming) задач в Hadoop кластере развернутого в облачной инфраструктуре Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop или HortonWorks HDP/ArenaData Hadoop, а также программного обеспечения управления кластером Cloudera Manager или Apache Ambari. с 9 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одному из этих дистрибутивов Hadoop (уточняйте у менеджера). Курс «Основы Hadoop» представляет собой сокращенную версию курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Cloudera, HortonWorks или ArenaData Hadoop по выбору.
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
1. Основы Hadoop и Big Data
- Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
- Hadoop сервисы и основные компоненты: Name node. Data Node. YARN. HDFS.
- Отказоустойчивость и высокая доступность.
- Batch процессинг.
- Потоковая обработка
- Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
- Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Кодеки компрессии.
- Импорт(загрузка) данных на HDFS
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
- Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
- Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
- FIFO scheduler
- Capacity scheduler (Планировщик по мощности)
- Fair scheduler (Гранулярное управление ресурсами)
- Защита очередей и доминантное управление ресурсами DRF
- Графический интерфейс сервиса HUE
- Введение Apache Pig
- Введение в Apache Hive, понятие Hive таблицы, установка Hive
- Введение в Apache sqoop — установка и выполнение базовых операций
- Введение в Apache Flume — установка и выполнение базовых операций
- Введение в Apache Spark — установка и выполнение базовых операций
Слушатели
Данный курс ориентирован на системных администраторов, системных архитекторов, разработчиков Hadoop, желающих получить теоретические знания и практические навыки по установке, настройке и использованию кластера Hadoop с использованием дистрибутивов Cloudera и HortonWorks.
Предварительная подготовка
Начальный опыт работы в Unix, опыт работы с текстовым редактором vi.