ADH-DEV

Основы работы с Apache Spark в экосистеме Arenadata Hyperwave

ПОИСК

Быстрый заказ

ОЦЕНКА КУРСА

общая оценка курса:

оценка преподавателя:

Отзывов: 0

Стать преподавателем

Хочу скидку

Программа «Основы работы с Apache Spark в экосистеме Arenadata Hyperwave» поможет получить актуальные знания по основам работы с Apache Spark и успешно применять их на практике.

Выберите форму обучения, чтобы увидеть актуальные даты:

После изучения курса вы сможете

понимать основы языка Scala и инструменты разработки;
разбираться в архитектуре Apache Spark и её базовых возможностях — RDD, DataFrame, DataSet;
настраивать производительность;
управлять памятью;
понимать, как обрабатывать данные из различных источников (файлы, СУБД, потоки);
понимать дополнительные возможности обработки и алгоритмы Spark GraphX и Spark MLlib.

Содержание курса

Модуль 1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP)

Экосистема Arenadata Hyperwave (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.

Модуль 2. Apache Spark: работа с большими данными

Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet.
Настройка окружения и запуск приложений.
o   Инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt).
o   Среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala).
o   Способы запуска программ (client/cluster).
Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.

Слушатели

разработчики;
аналитики в области Data Sciencе;
архитекторы Data Science;
специалисты в области Data Science, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata.

Предварительная подготовка

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой).
Опыт работы с текстовыми редакторами vi, nano.