Потоковая обработка в Apache Spark
4х-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
SPOT | 06 февраля 2025 |
48 000 руб. | 16 ак.часов Количество дней: 2 |
Дистанционный |
Регистрация |
Аудитория:
Практический курс по потоковой обработке с использованием Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования механизмов потоковой обработки с разными видами источников данных и нюансами практического использования возможностей Structured Streaming.
Соотношение теории к практике 50/50
Уровень подготовки:
- Опыт работы в Unix/SQL;
- Начальный опыт программирования (Python/Java);
- Знания в объеме, аналогичном курсу Core Spark
- Начальный опыт в экосистеме Hadoop
- Базовые знания Kafka
Программа курса «Потоковая обработка в Apache Spark»
1. Введение в потоковую обработку
-
- Потоковая и пакетная обработка данных
- Особенности потоковой обработки
- Надежность и потоковая обработка.
2. Потоковая обработка в Apache Spark
-
- Два вида потоков (на основе RDD и Dataframe)
- Парадигма потоковой обработки в Structured Streaming
- Источники (sources и sink).
3. Совместное использование Batch и Streaming
-
- Трансформации и действия в Apache Spark
- Объединение данных в Spark (join)
- Особенности использования трансформаций при работе с потоковыми данными
4. Источники потоковых данных
-
- Файловый источник данных
- Apache Kafka как источник данных
- Другие источники потоковых данных
5. Обеспечение надежности потоковой обработки в Apache Spark
-
- Механизм checkpoint в Apache Spark
- Настройка streaming checkpoint
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Что Вы получите:
Окончив курс «Потоковая обработка в Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.
Кто проводит курс
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва
Чтобы записаться на курс SPOT: Потоковая обработка в Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.