Потоковая обработка в Apache Spark

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
SPOT
08 августа 2024
07 ноября 2024
48 000 руб. 16 ак.часов Дистанционный
Регистрация

2х-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных

Аудитория:

Практический курс по потоковой обработке с использованием Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования механизмов потоковой обработки с разными видами источников данных и нюансами практического использования возможностей Structured Streaming.

Соотношение теории к практике 50/50

Уровень подготовки:

  • Опыт работы в Unix/SQL;
  • Начальный опыт программирования (Python/Java);
  • Знания в объеме, аналогичном курсу Core Spark
  • Начальный опыт в экосистеме Hadoop
  • Базовые знания Kafka

Программа курса «Потоковая обработка в Apache Spark»

1. Введение в потоковую обработку

    • Потоковая и пакетная обработка данных
    • Особенности потоковой обработки
    • Надежность и потоковая обработка.

2. Потоковая обработка в Apache Spark

    • Два вида потоков (на основе RDD и Dataframe)
    • Парадигма потоковой обработки в Structured Streaming
    • Источники (sources и sink).

3. Совместное использование Batch и Streaming

    • Трансформации и действия в Apache Spark
    • Объединение данных в Spark (join)
    • Особенности использования трансформаций при работе с потоковыми данными

4. Источники потоковых данных

    • Файловый источник данных
    • Apache Kafka как источник данных
    • Другие источники потоковых данных

5. Обеспечение надежности потоковой обработки в Apache Spark

    • Механизм checkpoint в Apache Spark
    • Настройка streaming checkpoint
Скачать программу курса «Потоковая обработка в Apache Spark» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Что Вы получите:

Окончив курс «Потоковая обработка в Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:

Чтобы записаться на курс SPOT: Потоковая обработка в Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Контакты авторизированного учебного центра
«Школа Больших Данных»
Адрес:
127576, г. Москва, м. Алтуфьево, Илимская ул. 5 корпус 2, офис 319, БЦ «Бизнес-Депо»
Часы работы:
Понедельник - Пятница: 09.00 – 18.00
Остались вопросы?
Звоните нам +7 (495) 414-11-21 или отправьте сообщение через контактную форму. Также вы можете найти ответы на ваши вопросы в нашем сборнике часто задаваемых вопросов.
Оставьте сообщение, и мы перезвоним вам в течение рабочего дня
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Или напишите нам в соц.сетях
Поиск по сайту