ПОИСК
Быстрый заказ
ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Программа «Основы работы с Apache Spark в экосистеме Arenadata Hyperwave» поможет получить актуальные знания по основам работы с Apache Spark и успешно применять их на практике.
Выберите форму обучения,
чтобы увидеть актуальные даты:
РАСПИСАНИЕ ЗАНЯТИЙ
|
|||||||||||||||||||
После изучения курса вы сможете
- понимать основы языка Scala и инструменты разработки;
- разбираться в архитектуре Apache Spark и её базовых возможностях — RDD, DataFrame, DataSet;
- настраивать производительность;
- управлять памятью;
- понимать, как обрабатывать данные из различных источников (файлы, СУБД, потоки);
- понимать дополнительные возможности обработки и алгоритмы Spark GraphX и Spark MLlib.
Содержание курса
Модуль 1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP)
Модуль 2. Apache Spark: работа с большими данными
- Экосистема Arenadata Hyperwave (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
- Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
Модуль 2. Apache Spark: работа с большими данными
- Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet.
- Настройка окружения и запуск приложений.
o Инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt).
o Среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala).
o Способы запуска программ (client/cluster). - Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
- Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
- Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
- Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
- Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
- Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
- MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
- GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.
Слушатели
- разработчики;
- аналитики в области Data Sciencе;
- архитекторы Data Science;
- специалисты в области Data Science, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata.
Предварительная подготовка
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой).
- Опыт работы с текстовыми редакторами vi, nano.