Потоковая обработка в Apache Spark
4х-дневный практический курс для специалистов Big Data, которые используют или планируют использовать Apache Spark для потоковой обработки данных, и хотят получить опыт настройки и использования механизмов потоковой обработки с разными видами источников данных и нюансами практического использования возможностей Structured Streaming.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
SPOT | 20 мая 2025 |
48 000 руб. | 16 ак.часов Количество дней: 4 |
Дистанционный |
Регистрация |

О продукте
Потоковая обработка (stream processing) — это метод анализа данных, поступающих непрерывно (например, сенсорные данные, логи, сообщения из соцсетей). В отличие от пакетной обработки, где данные накапливаются и обрабатываются партиями, потоковая обработка работает с данными «на лету».
Spark Streaming — модуль Apache Spark, предназначенный для обработки потоков данных. Он использует микропакетную модель: непрерывный поток разбивается на небольшие пакеты (микробатчи), которые обрабатываются как RDD (Resilient Distributed Datasets).
Аудитория
- Data Engineers и аналитики, работающие с большими данными.
- Разработчики, желающие создавать масштабируемые ETL-процессы и ML-модели.
- Архитекторы, планирующие внедрение Spark в облачные среды (Kubernetes)
Уровень подготовки
- Опыт работы в Unix/SQL;
- Начальный опыт программирования (Python/Java);
- Знания в объеме, аналогичном курсу Core Spark
- Начальный опыт в экосистеме Hadoop
- Базовые знания Kafka
О курсе
На курсе будут рассмотрены гибкие инструменты экосистемы Apache Spark и два подхода к решению задач по потоковой обработке данных в реальном времени — микропакетная модель (Spark Streaming) и современный подход с бесконечными таблицами (Structured Streaming). Выбор между ними зависит от задач: DStreams подходит для низкоуровневого контроля, а Structured Streaming — для удобства и оптимизаций. Для максимальной производительности Вы научитесь правильно настраивать размеры батчей, управлять памятью и использовать механизмы отказоустойчивости.
Программа курса «Потоковая обработка в Apache Spark»
1. Введение в потоковую обработку
-
- Потоковая и пакетная обработка данных
- Особенности потоковой обработки
- Надежность и потоковая обработка.
2. Потоковая обработка в Apache Spark
-
- Два вида потоков (на основе RDD и Dataframe)
- Парадигма потоковой обработки в Structured Streaming
- Источники (sources и sink).
3. Совместное использование Batch и Streaming
-
- Трансформации и действия в Apache Spark
- Объединение данных в Spark (join)
- Особенности использования трансформаций при работе с потоковыми данными
4. Источники потоковых данных
-
- Файловый источник данных
- Apache Kafka как источник данных
- Другие источники потоковых данных
5. Обеспечение надежности потоковой обработки в Apache Spark
-
- Механизм checkpoint в Apache Spark
- Настройка streaming checkpoint
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Что Вы получите
Окончив курс «Потоковая обработка в Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Arenadata Hadoop, Arenadata DB)
- Организация ETL-конвейеров (Airflow, Spark, Flink, Trino)
- Обработка потоковых данных (Kafka, Kafka Streams, Flink)
- Поддержка и развитие инфраструктуры больших данных
Чтобы записаться на курс SPOT: Потоковая обработка в Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.