ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
5-дневный практический курс для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.
Практическое обучение инженеров данных и архитекторов Big Data в «Школе Больших Данных» включает теоретический минимум, необходимый для прикладной работы и эффективному использованию Apache HBase, Spark, Sqoop, Hive, Impala, Greenplum, ArenadataDB, Yandex ClickHouse и Arenadata Quick Marts. Подробно рассматриваются вопросы проектирования озер и корпоративных хранилищ данных, схемы HBase, Greenplum, ArenadataDB, Yandex ClickHouse и Arenadata Quick Marts. Подробно рассматриваются вопросы проектирования озер и корпоративных хранилищ данных, импорта и экспорта информации из реляционных источников, преобразование данных в процессах ETL/ELT с использованием batch-процессинга Hive и конвейеров на Apache Spark. Курс содержит описание механизма SQL-доступа к данным в OLAP и OLTP-решениях посредством Cloudera Impala и Apache HBase/Phoenix. MPP-системы разбираются на примере аналитической СУБД Greenplum/ArenadataDB, в т.ч. интеграцию с Hadoop-кластерами по протоколу параллельного обмена данных со сторонними системами PXF (Platform eXtension Framework). Также курс включает знакомство с кластерной колоночной СУБД Arenadata Quick Marts (Yandex СlickHouse), которая позволяет в режиме реального времени генерировать аналитические отчёты на больших объемах данных. На практике вы самостоятельно построите собственный data pipeline в рамках ETL/ELT-процессов, поработаете с SQL-запросами к Hadoop, спроектируете схему организации NoSQL-таблиц в озере и корпоративном хранилище данных.
РАСПИСАНИЕ ЗАНЯТИЙ
|
После изучения курса вы сможете
- понять, как организовать комплексную Big Data инфраструктуру на базе озера данных Apache Hadoop, интегрированного с корпоративными хранилищами данных (КХД), OLAP и OLTP системами;
- разобраться с архитектурой КХД и Data Lake, принципами их наполнения, средствами организации ELT/ETL-процессов;
- освоить инструменты создания конвейеров данных (data pipelines), включая потоковый (streaming) и пакетный (batch) режимы с применением Apache Sqoop и Spark;
- научиться формировать запросы к большим данным с помощью средств SQL-on-Hadoop (Apache Hive, Cloudera Impala, Apache Phoenix);
- приобрести опыт работы с MPP-СУБД Greenplum и ArenadataDB для эффективного охранения и быстрой аналитики больших данных, а также с OLAP-системами Yandex ClickHouse и Arenadata Quick Marts;
- узнать лучшие практики использования всех этих инструментов для решения прикладных бизнес-задач.
Содержание курса
1. Введение в NoSQL
- Базовые принципы и компоненты Hadoop
- Основные концепции и виды NoSQL решений
- Архитектура Data Lake
- Принципы формирование pipelines и Data Lake
- Apache Sqoop – основные принципы:
- простой импорт и экспорт данных из реляционных источников
- сценарии применения
- Apache Spark – обзор возможностей:
- импорт и экспорт данных из реляционных источников и файлов
- нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
- Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
- Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
- Основные компоненты системы
- Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности
- Тюнинг JOIN операций
- Сценарии использования
- Cloudera Impala – OLAP аналитика данных в MPP Hadoop
- Особенности решения
- Интеграция с Hive и HBase
- Форматы файлов для Cloudera Impala (Parquet, ORC)
- Особенности JOIN-операций
- Сценарии использования
- Spark SQL
- Возможности фреймворка и предоставляемые API
- Сложные преобразования и агрегация с использованием Spark SQL
- Интеграция с Hive
- Сценарии использования
- Спектр возможностей NoSQL в экосистеме Hadoop
- Apache HBase – для real-time доступа на чтение и запись
- Архитектура решения, концепция CRUD,
- Проектирование базы данных, выбор column family
- Сценарии использования HBase
- Использование Apache Phoenix для HBase
- Концепция MPP и её реализация в Greenplum/ArenadataDB.
- Загрузка и распределение данных. Сегментирование таблиц. Индексация
- Внешние таблицы, реплицированные таблицы, consistent hashing
- Оптимизация запросов, JOIN
- Best practices
- Сценарии использования
- Особенности реализации
- Шардирование, партиционирование, индексация
- Сценарии использования
Предварительная подготовка
- Опыт работы в Unix
- Знание SQL