Обработка данных с использованием Apache Spark и Flink на Kubernetes

4-х часовой практический мастер-класс об обработке данных с использованием моделей и ключевых паттернов управления распределенными приложениями Apache Spark и Apache Flink на Kubernetes.

 

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
MK-K8S
17 апреля 2025
12 000 руб. 4 ак.часов
Количество дней: 1
Дистанционный
Регистрация

Информация о мастер-классе

Apache Spark — фрэймворк распределенной обработки больших данных с открытым исходным кодом, реализующий микро-пакетную архитектуру.

Apache Flink – фрэймворк распределенной обработки больших данных с открытым исходным кодом, используемый в высоконагруженных приложениях обработки больших данных.

На мастер-классе вы будете настраивать и запускать в кластере Managed Service for Kubernetes приложения обработки данных, как в пакетном, так и в потоковом режимах на Apache Spark и Apache Flink.

Практические занятия будут проводиться в 2 этапа:

  • Подготовка рабочего окружения;
  • Настройки и запуск в Kubernetes приложений пакетной и потоковой обработки данных на Apache Spark и Apache Flink;

Участники получат раздаточные материалы, а также набор упражнений с целью закрепления полученных навыков.

Аудитория: архитекторы платформ данных, инженеры данных, разработчики, DevOps-, DataOps- инженеры.

Уровень подготовки:

специальной подготовки не требуется, все будет происходить в интерактивной среде подготовленной нашей школой, в Yandex Cloud

Продолжительность курса: 4 академических часа, дистанционно

Программа мастер-класса

  1. Сравнительный анализ менеджеров ресурсов приложений распределенной обработки данных, какие преимущества дает Kubernetes: теория
  2. Разбор паттернов управления приложениями потоковой обработки Apache Spark и Apache Flink: теория, практическое задание, разбор кейсов
  3. Разбор паттернов управления приложениями пакетной обработки Apache Spark и Apache Flink: теория, практическое задание, разбор кейсов
  4. Apache Beam как унифицированная модель для описания трансформаций данных: теория, практическое задание, разбор кейсов
  5. Реализация CI/CD для приложений потоковой обработки данных (на примере Apache Flink и Apache Spark): теория, практическое задание, разбор кейсов
  6. Реализация CI/CD для приложений пакетной обработки данных (на примере Apache Flink и Apache Spark): теория, практическое задание, разбор кейсов

Кто проводит курс

Самсонов Сергей
Самарский государственный университет: Факультет информатики, специалист прикладной информатики, 2012

Опыт работы в сфере больших данных более чем 10 лет. Лидировал успешные проекты по внедрению и поддержке Data Lake в таких компаниях как Альфа-Банк, Росбанк, ВТБ Россия, международных стартапах, а также, государственных информационных системах РФ, включая ГАСУ «Национальные проекты». Контрибьютор open-source проектов по Big Data, включая Kubernetes Operator for Apache Spark https://github.com/kubeflow/spark-operator. Организатор Google Developers Group Astana. Основатель казахоязычного коммьюнити по большим данным BIG DATA KZ. Scrum-мастер с более чем 5-летним опытом, обладатель сертификатов Agile Fundamentals (ICP) и Agile Team Facilitation (ICP-ATF).

Чтобы записаться на курс MK-K8S: Обработка данных с использованием Apache Spark и Flink на Kubernetes позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.