Обработка данных с использованием Apache Spark и Flink на Kubernetes

4-х часовой практический мастер-класс об обработке данных с использованием моделей и ключевых паттернов управления распределенными приложениями Apache Spark и Apache Flink на Kubernetes.

 

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
MK-K8S
28 августа 2025
12 000 руб. 4 ак.часов
Количество дней: 1
Дистанционный
Регистрация

Информация о мастер-классе

Apache Spark – фрэймворк распределенной обработки больших данных с открытым исходным кодом, реализующий микро-пакетную архитектуру.

Apache Flink – фрэймворк распределенной обработки больших данных с открытым исходным кодом, используемый в высоконагруженных приложениях обработки больших данных.

На мастер-классе вы будете настраивать и запускать в кластере Managed Service for Kubernetes приложения обработки данных, как в пакетном, так и в потоковом режимах на Apache Spark и Apache Flink.

Практические занятия будут проводиться в 2 этапа:

  • Подготовка рабочего окружения;
  • Настройки и запуск в Kubernetes приложений пакетной и потоковой обработки данных на Apache Spark и Apache Flink;

Участники получат раздаточные материалы, а также набор упражнений с целью закрепления полученных навыков.

Аудитория: архитекторы платформ данных, инженеры данных, разработчики, DevOps-, DataOps- инженеры.

Уровень подготовки:

специальной подготовки не требуется, все будет происходить в интерактивной среде подготовленной нашей школой, в Yandex Cloud

Продолжительность курса: 4 академических часа, дистанционно

Программа мастер-класса

  1. Сравнительный анализ менеджеров ресурсов приложений распределенной обработки данных, какие преимущества дает Kubernetes: теория
  2. Разбор паттернов управления приложениями потоковой обработки Apache Spark и Apache Flink: теория, практическое задание, разбор кейсов
  3. Разбор паттернов управления приложениями пакетной обработки Apache Spark и Apache Flink: теория, практическое задание, разбор кейсов
  4. Apache Beam как унифицированная модель для описания трансформаций данных: теория, практическое задание, разбор кейсов
  5. Реализация CI/CD для приложений потоковой обработки данных (на примере Apache Flink и Apache Spark): теория, практическое задание, разбор кейсов
  6. Реализация CI/CD для приложений пакетной обработки данных (на примере Apache Flink и Apache Spark): теория, практическое задание, разбор кейсов

Кто проводит курс

Самсонов Сергей
Самарский государственный университет (Самара, 2012)

Профессиональные компетенции:

 

  • Сертифицированный разработчик Spark и Hadoop (CCA Cloudera). Обладает престижными международными сертификациями Cloudera Certified Professional Data Engineer. Контрибьютор open-source проектов по Big Data, включая Kubernetes Operator for Apache Spark.
  • Эксперт по построению Data Lake и аналитике больших данных: Лидировал успешные проекты по внедрению и поддержкеData Lake в таких компаниях как Альфа-Банк, Росбанк, ВТБ Россия, международных стартапах, а также государственных информационных системах РФ.
  • Опыт построение корпоративных хранилищ и озер данных: Экспертиза в решениях Cloudera CDH, Arenadata Hadoop, Arenadata DB. Организация ETL-конвейеров с использованием Airflow, Spark, Flink, Trino.
  • Scrum-мастер и лидер сообщества: Более 5 лет опыта управления командами, обладатель сертификата Agile Team Facilitation (ICP-ATF). Организатор Google Developers Group Astana, основатель коммьюнити BIG DATA KZ.

 

Чтобы записаться на курс MK-K8S: Обработка данных с использованием Apache Spark и Flink на Kubernetes позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.