ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Это практический тренинг по настройке доступа к большим данным в распределенной файловой системе HDFS (платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. В нем рассматриваются аспекты доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, Apache HBase, Spark SQL, использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets.
Курс будет полезен для администраторов и разработчиков Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks, Arenadata.
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
1. Основные концепции Hive
- Архитектура Hive.
- Инструменты администрирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
- Схема чтения и записи в Hive.
- Структура и формат хранения файлов HIVE.
- Синтаксис HiveQL. Hive DDL и DML операции.
- Загрузка данных в таблицы Hive.
- Внешние и управляемые таблицы.
- Оптимизации производительности с использование Partition, Buckets.
- Импорт/экспорт данных БД.
- Форматы хранения данных и применение компрессии.
- Map JOIN.
- Comon JOIN.
- Skewed JOIN.
- Collocated JOIN.
- Форматы хранения данных и применение компрессии.
- Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
- Thrift сервер
- User Defined Functions
- Hive на Spark.
- Hive на Tez
Слушатели
Ориентирован на специалистов SQL имеющих опыт работы с реляционными базами данных для организации хранения, настройке импорта и экспорта данных с использованием Apache Hive в кластере Hadoop и желающих его применить.
Предварительная подготовка
- Начальный опыт работы в Unix
- Начальный опыт работы с SQL