ПОИСК
Быстрый заказ
![]() ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Целью обучения является формирование знаний и навыков по основам работы с Apache Spark в экосистеме продуктов Arenadata. Слушатели научатся использовать современные инструменты для разработки (IDE, интерактивные), сборки (Maven, sbt) и запуска приложений Apache Spark на языке программирования Scala (Python, Java), включая различные режимы и способы размещения приложений в Arenadata Hadoop.
Выберите форму обучения,
чтобы увидеть актуальные даты:
РАСПИСАНИЕ ЗАНЯТИЙ
|
После изучения курса вы сможете
- понимать основы языка Scala и инструменты разработки;
- разбираться в архитектуре Apache Spark и её базовых возможностях — RDD, DataFrame, DataSet;
- настраивать производительность;
- управлять памятью;
- понимать, как обрабатывать данные из различных источников (файлы, СУБД, потоки);
- понимать дополнительные возможности обработки и алгоритмы Spark GraphX и Spark MLlib.
Содержание курса
1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP)
2. Apache Spark: работа с большими данными
- Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin)
- Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Cluster Manager
2. Apache Spark: работа с большими данными
- Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet
- Настройка окружения и запуск приложений
- Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции
- Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных
- Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP
- Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных
- Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF)
- Apache Spark Streaming. Работа с потоками. Структуры. Примеры
- MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры
- GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры
Слушатели
- разработчики;
- аналитики в области Data Sciencе;
- архитекторы Data Science;
- специалисты в области Data Science, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata.
Предварительная подготовка
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой).
- Опыт работы с текстовыми редакторами vi, nano.