ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
3-хдневный практический курс Data Pipeline на Apache Airflow и Apache Hadoop для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управление Hadoop и AirFlow.
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
1. Введение в AirFlow
ПРАКТИЧЕСКИЕ ЗАНЯТИЯ:
- История появления, решаемые задачи, место в наборе инструментов по обработке данных
- Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
- Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
- Планирование и график исполнения DAG
- Компоненты Airflow (scheduler, административный web-интерфейс)
- Алерты и логирование
- Переменные и xcomm
- Connection и работа с источниками данных
- Процесс создания DAG
- Основные операторы
- Создание (настройка) python и bash операторов
- Создание собственных операторов и сенсоров
- Использование connection
- Hooks и практические примеры использования
- xcomm и переменные: зачем нужны и что дают
- Возможности макроязыка (Jinja)
- Настройка расписания и его особенности
- Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
- Основные параметры конфигурации
- Использование Celery executor
- Кластеризация (масштабируемость, отказоустойчивость)
- Отладка и тестирование
- Поиск информации в лог-файлах
- Нюансы встраивания Airflow в CI/CD конвейеры и системы управления версиями
- Airflow и Apache Spark
ПРАКТИЧЕСКИЕ ЗАНЯТИЯ:
- Создание простых DAG
- Настройка python и bash операторов
- Разработка операторов и сенсоров
- Работа с источниками данных
- Взаимодействие с Apache Spark
Слушатели
Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по работе с batch-процессами и конвейерами обработки больших данных:
- понять, что такое Apache Airflow;
- уяснить отличия Airfow от NiFi;
- освоить принципы работы с задачами, операторами и DAG’ами;
- научиться настраивать рабочее окружение для Airflow;
- освоить методы администрирования и мониторинга кластера Airflow;
- интегрировать Apache Aiflow с другими Big Data фреймворками (Hadoop, Spark) и внешними системами.
Предварительная подготовка
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой , POSIX, текстовыми редакторами vi, nano) - Начальный опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop