ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Получить знания по продуктам экосистемы Hadoop и продвинутые навыки по установке, конфигурированию, обслуживанию, восстановлению и управлению кластером Hadoop с использованием дистрибутива Arenadata Hadoop и системы управления Arenadata Cluster Manager.
Выберите форму обучения,
чтобы увидеть актуальные даты:
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
Тема 1. Введение в экосистему Hadoop
- История возникновения Hadoop:
- Понятия BigData, Data Lake. История проекта.
- Основные компоненты и экосистема.
- Основные проекты Hadoop:
- HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper. Описание и основные компоненты.
- Дистрибутивы Hadoop:
- Проект ODPi. Arenadata Hadoop. Проект Ambari. ADCM.
- Архитектура кластера Hadoop:
- HDFS. YARN. Отказоустойчивость
Тема 2. Подготовка окружения к установке Hadoop
- Планирование кластера:
- Типы узлов. Профили нагрузки. Аппаратное обеспечение. Примеры кластеров.
- Настройка параметров окружения:
- Подготовка к установке. Настройка сети и DNS.
- Монтирование и настройка файловой системы
Тема 3. Введение в Arenadata Cluster Manager
- Основные понятия и компоненты
- Развертывание системы управления:
- Подготовка и настройка инфраструктуры с использованием бандла:
- Планирование и первичная конфигурация кластера Hadoop
- Установка и настройка мониторинга:
- Установка кластера Hadoop:
- Мониторинг. Работа с метриками в Grafana.
- Подходы к конфигурированию сервисов экосистемы Hadoop.
- Основные конфигурационные файлы и описание:
- HDFS+YARN (hdfs-site, yarn-site, hadoop-env).
- Hive+Tez (hive-site, tez-site, hive-env).
- HBase (hbase-site, hbase-env).
- Spark (spark-env).
- Zookeeper (zoo.cfg).
- Работа с логами сервисов, поиск и выявление проблем работы с сервисами.
- Интерпретация статусов тестов, сервисов в системе управления ADCM.
- Обзор возможностей ADCM:
- Аутентификация. RBAC.
- Configuration groups.
- API.
- Логирование аудита.
- Удаление кластера
Тема 4. Пост-настройка кластера Hadoop: HDFS, YARN
- Файловая система HDFS
- Основные операции в HDFS:
- Работа с файлами и каталогами. Balancer
- Распределенное копирование. HttpFS
- Обслуживание и дианостика HDFS
- DataNodes, NameNodes, HA. HDFS UI.
- Политики хранения и размещения в HDFS
- Политики хранения. Tiering. Erasure Coding. Rack Awareness
- Компрессия и форматы файлов
- Парадигма Map Reduce
- Архитектура YARN, HA-режим. Работа с YARN UI.
- Scheduler YARN
Тема 5. Настройка и работа с сервисами ADH
- ZooKeeper. Основные понятия и операции. Работа с Zookeeper CLI.
- HBase. Основные понятия и примеры операций. Установка и конфигурирование (GC, Memstore, Compression, Load balancing, Flush). High Availability. Работа с утилитами HBase (check, repair).
- Phoenix. Основные операции с данными. Примеры запросов Hive. Основные понятия и примеры операций. Установка и конфигурирование. High Availability HiveServer.
- Работа с утилитами Hive (schema-tool). Работа с Tez UI.
- Оптимизация запросов Hive:
- Spark. Основные понятия и операции.
- Установка и конфигурирование. Работа со Spark UI. Примеры кода.
- Работа с Livy сервером (REST API)
- Zeppelin. Основные интерпретаторы и примеры кода
Слушатели
Курс «Эксплуатация Arenadata Hadoop» будет интересен системным администраторам Hadoop, архитекторам и инженерам в области Data Science.
Предварительная подготовка
- знания и навыки работы с командами и сервисами Linux-систем (командная строка, файловая система, текстовые редакторы vi, vim, nano и др.);
- обязателен опыт работы с SQL.