ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
3 дня практического обучения по установке и первоначальной настройке кластера Apache Hadoop — основы Big Data для начинающих и специалистов. Практическое обучение Хадуп для системных администраторов, архитекторов и разработчиков Big Data.
Курс «Основы Hadoop» представляет сокращенную версию курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Arenadata Hadoop Community Edition или Apache Hadoop.
Выберите форму обучения,
чтобы увидеть актуальные даты:
РАСПИСАНИЕ ЗАНЯТИЙ
|
После изучения курса вы сможете
Курс позволит специалисту освоить следующие умения:
- базовые установка и настройка кластера Hadoop в облаке
- основные операции с файловой системой HDFS
- запуск задач и управление ресурсами MapReduce и YARN
- взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, Sqoop, HBase, Zeppelin.
Содержание курса
1. Основы Hadoop и Big Data
- Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
- Hadoop сервисы и основные компоненты: Name node. Data Node. YARN. HDFS.
- Отказоустойчивость и высокая доступность.
- Batch процессинг.
- Потоковая обработка
- Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
- Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Кодеки компрессии.
- Импорт(загрузка) данных на HDFS
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
- Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
- Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
- FIFO scheduler
- Capacity scheduler (Планировщик по мощности)
- Fair scheduler (Гранулярное управление ресурсами)
- Защита очередей и доминантное управление ресурсами DRF
- Графический интерфейс сервиса HUE
- Введение Apache Pig
- Введение в Apache Hive, понятие Hive таблицы, установка Hive
- Введение в Apache sqoop — установка и выполнение базовых операций
- Введение в Apache Flume — установка и выполнение базовых операций
- Введение в Apache Spark — установка и выполнение базовых операций
Слушатели
Данный курс ориентирован на начинающих и опытных ИТ-специалистов в области больших данных, которые хотят получить теоретические знания и прикладные навыки по установке, настройке и использованию кластера Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud для ознакомления).
Предварительная подготовка
- Базовый опыт работы в Linux(обязательно)
- Опыт работы с любым текстовым редактором vi, nano