ПОИСК
Быстрый заказ
![]() ОЦЕНКА КУРСАобщая оценка курса:оценка преподавателя: Хочу скидку |
Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.
РАСПИСАНИЕ ЗАНЯТИЙ
|
Содержание курса
1. Знакомство с библиотеками языка Python для обработки и визуализации данных.
Цель: познакомить участников с основными библиотеками языка Python и сформировать начальные навыки по работе с данными в рассматриваемых библиотеках.
Теоретическая часть:
2. Библиотеки Python в корректировании типичных особенностей в данных.
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
3. Итоговый проект
Цель: закрепить полученные слушателями курса знаний по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Цель: познакомить участников с основными библиотеками языка Python и сформировать начальные навыки по работе с данными в рассматриваемых библиотеках.
Теоретическая часть:
- изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
- обзор основных приемов по работе с данными:
- первичный анализ данных
- получение описательных статистик
- изменение типа данных
- построение сводных таблиц
- визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)
2. Библиотеки Python в корректировании типичных особенностей в данных.
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
- обзор типичных особенностей в данных и подходов к их корректировке:
- отсутствующие значения
- выбросы
- дубликаты
- подготовка данных для использования в алгоритмах машинного обучения:
- нормализация числовых данных
- преобразование категориальных значений
- работа с текстовыми данными
3. Итоговый проект
Цель: закрепить полученные слушателями курса знаний по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Предварительная подготовка
- опыт программирования на языке Python;
- знание основ математического анализа и математической статистики.