ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Курс проводится по будням в вечернее время:
04.12.2023 - 10 дней / по 4 акад.часа в день с 17.00 до 20.00 (Мск). 05.02.2024 - 10 дней / по 4 акад.часа в день с 17.00 до 20.00 (Мск). Данный курс включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных. На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.
Выберите форму обучения,
чтобы увидеть актуальные даты:
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
1. Основные концепции Hadoop и Data Lake
Cписок практических занятий:
- Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития
- Современные хранилища данных, Data Lake, его архитектура
- Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию
- Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler
- Архитектура HDFS. Операции чтения и записи, блоки HDFS
- Основные команды работы с HDFS
- Дополнительные возможности и особенности HDFS
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Введение в Sqoop: импорт и экспорт данных из реляционных источников
- Введение в Hive и соответствие DDL операций структуре хранения
- Работа с внешними и внутренними таблицами Hive
- Партиционирование данных
- Hive LLAP, Hive on Spark/Tez
- Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)
- Архитектура и состав Apache Spark
- Основные абстракции (Dataframe, RDD)
- Spark SQL
- Ввод и вывод данных в Apache Spark
- Введение в Cloudera Impala: особенности архитектура и компоненты
- Взаимодействие Spark, Hive
- Архитектура и состав Apache HBase
- Основные абстракции и язык запросов
- Архитектура и состав Apache Kafka
- Партиции, топики, управление смещением
- Основные API
- Архитектура и состав Apache Airflow
- Основные абстракции (DAG, оператор, сенсор)
- Основные операторы (Bash Operator, Python Operator)
Cписок практических занятий:
- Выполнение и анализ работы Map Reduce приложений
- Особенности запуска задач и использование командной строки YARN
- Работа с HDFS (интерфейс командной строки)
- Импорт/экспорт данных с помощью Apache Sqoop
- Использование Apache Hive для анализа данных
- Обработка данных с использованием Structured API Apache Spark
- Сравнение производительности SQL движков (Hive, Spark, Impala)
- Работа в командной строке с Apache HBase
- Использование Consumer и Producer API в Apache Kafka
- Построение Workflow с использованием Apache Airflow
Слушатели
Курс ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Хадуп.
Предварительная подготовка
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт работы с SQL