Анализ данных с помощью современного Apache Spark

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
SPARK
17 февраля 2025
12 мая 2025
04 августа 2025
96 000 руб. 32 ак.часов
Количество дней: 8
Дистанционный
Регистрация

О продукте:

Apache Spark — это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки данных (в том числе неструктурированных и слабоструктурированных), входящий в экосистему проектов Hadoop.

Спарк состоит из следующих компонентов:

  • Ядро (Core Spark), включающее Spark SQL — возможность аналитической обработки данных с помощью SQL-запросов;
  • Streaming — надстройка для обработки потоковых данных;
  • ML — набор библиотек для подготовки данных и машинного обучения (Machine Learning);
  • GraphX — модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Современный Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, с использованием Kubernetes в качестве системы управления кластером. Спарк поддерживает несколько популярных распределённых систем хранения данных (HDFS и совместимые с HDFS файловые системы, объектное хранилище Amazon S3), а также может работать с Delta Lake. Apache Spark предоставляет языковые API для часто используемых в области Big Data языков программирования: Java, Scala, Python и R, в современных версиях добавлен pandas API, возможность работы со Spark Connect, полезная при использовании территориально или сетево удаленных кластеров. Во время курса мы подробно разберем эти и другие особенности современного Apache Spark.

Аудитория:

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark ML и Spark GraphX.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX)
  • Начальный опыт программирования (Python)
  • Начальный опыт в экосистеме Hadoop

О курсе:

Продолжительность: 4 дня, 32 академических часа

Соотношение теории к практике 40/60

Практический курс «Анализ данных с помощью современного Apache Spark» представляет собой 4-дневный интенсивный тренинг по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных , и потоковой обработки информации.

Обучение Спарк содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark (Spark Core, Spark Streaming, Spark SQL, ML и GraphX) для пакетной и потоковой обработки данных. Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

Программа курса «Анализ данных с помощью современного Apache Spark»

1. Обзор Apache Spark

    • Архитектура Spark. Обзор компонентов Spark и их назначения

2. Основные абстракции Apache Spark

    • Трансформации и действия, Lazy Evaluation

3. Знакомство с Dataframes

    • Structured API и основная абстракция Spark – Dataframe

4. Знакомство со Spark RDD

    • Low Level API, использование Resilient Distributed Dataset

5. Apache Spark SQL

    • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
    • Отправка данных в SQL СУБД и работа с Hive QL
    • Spark SQL и Hadoop

6. Работа с источниками данных

    • Ввод и вывод в Apache Spark
    • Работа с файлами и базами данных

7. Производительность и параллелизм в Apache Spark

    • Планы выполнения запроса: логические и физические

8. Конфигурирование Apache Spark

    • Принципы конфигурирования и основные настройки

9. Spark Streaming и Structured Streaming

    • Виды потоковой обработки в Apache Spark
    • Особенности исполнения streaming кода
    • Checkpoint в Spark Streaming

10. GraphX и ML

    • Место и особенности графовых моделей в программировании
    • Задачи машинного обучения и проблематика больших данных
    • Основные возможности Spark ML

11. Обработка слабоструктурированных данных

    • Работа с JSON и XML файлами, особенности и возможности

12. Современный Spark

    • pandas API в spark
    • Spark Connect: долгоживущие сессии
    • Spark on Kubernetes (будущее в настоящем)
    • Delta Lake — технологическая основа LakeHouse
Скачать программу курса «Анализ данных с Apache Spark, Spark Streaming» в формате pdf

Отправить ссылку на e-mail:

Чему Вы научитесь:

  • понимать особенности использования RDD и dataframe;
  • обращаться к большим данным с использование SQL или HiveQL;
  • использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных;
  • настраивать и использовать компоненты MLLib и GraphX;
  • обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.

Что Вы получите:

Окончив курс «Анализ данных с помощью современного Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1988)

Отзывы наших клиентов о курсе

Оставить отзыв

Чтобы записаться на курс SPARK: Анализ данных с помощью современного Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.