Все курсы

Потоковая обработка данных с помощью Apache Flink

Код курса	Даты начала курса	Стоимость обучения	Длительность обучения	Формат обучения
FLINK	01 августа 2024 28 октября 2024	48 000 руб.	16 ак.часов	Дистанционный
Регистрация

Что такое Apache Flink и где это используется

Apache Flink – это фреймворк и распределённый вычислительный движок для обработки ограниченных и неограниченных потоков данных с сохранением состояния (stateful computations). Flink относят к потоковым процессорам третьего поколения, он обладает интуитивными и выразительными API, с помощью которых можно создать масштабируемую отказоустойчивую систему обработки потока данных. Flink хорошо подходит для реализации систем потоковой обработки, использующих состояние (stateful stream processing), его уникальный механизм точек сохранения (checkpoints и savepoints) позволяет реализовать exactly-once гарантию консистентности данных и эффективно восстанавливать потоковую обработку без потери и дублирования в случае сбоев или регламентных окон, а также обеспечивает легкие и понятные способы масштабирования работающих в продуктивной среде приложений.

На практике Apache Flink широко используется для решения широкого спектра задач, начиная от построения процессоров потоковой обработки данных реального времени и заканчивая реализацией сложных сценариев потоковой подготовки данных и потоковой аналитики данных. С помощью Flink можно построить приложения, использующие парадигму «событийного управления» (Event Driven Applications).

Flink может использоваться не только для потоковой обработки, но и для обработки статических массивов данных (batch processing), хорошо взаимодействует с источниками потоковых и статических данных, такими как Apache Kafka, Kinesis, RabbitMQ, Apache Nifi, Cassandra, ElasticSearch, а также JDBC источниками и различными файловыми системами.

О Курсе “Потоковая обработка данных с помощью Apache Flink”

2-хдневный курс обучения по Flink позволит вам получить и систематизировать знания по использованию Flink для построения систем потоковой обработки данных. Курс нацелен на вопросы использования возможностей Apache Flink для обработки прежде всего потоковых данных, включая нюансы извлечения меток времени и генерации watermarks, лучшие практики (best practices) использования механизмов временных окон, работы с локальным состоянием, вопросы эффективности и параллелизма обработки, тонкости работы с источниками данных и многое другое.

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции фреймворка Flink, его подходы к преобразованию потока данных, нюансы работы с потоком в терминах времени событий или времени обработки (event vs processing time), виды сохраняемого состояния (state type and primitives), работу с источниками потоковых данных. Преподаватель курса “Потоковая обработка данных с помощью Apache Flink” подробно объяснит все тонкости и особенности настройки механизмов извлечения времени, работы с состоянием и локальным кластером Apache Flink с тем, чтобы вы могли самостоятельно разрабатывать собственные системы потоковой обработки данных по окончании курса.

На практике вы реализуете собственные потоковые процессоры с помощью Apache Flink, научитесь работать с метками времени и watermarks, сможете выполнять базовые трансформации потоковых данных, использовать временные окна, обрабатывать данные из Apache Kafka и файловых источников.

Во время курса вы также получите информацию о сравнении возможностей Apache Flink с аналогами (Kafka Streams и Spark Structured Streaming).

Курс предполагает использование языка Scala.

Продолжительность: 16 ак. часа, 2 дня (теория / практика).
Аудитория: Дата-инженеры и специалисты по данным, которые хотят изучить необходимый теоретический минимум по Apache Flink, чтобы понять основные концепции фреймворка, stateful преобразований и доставки данных из сторонних систем, а также узнать особенности подхода Flink к построению масштабируемых надежных конвейеров обработки потоковых данных.
Требования к предварительному уровню подготовки: Уверенное знание базовых команд Linux (опыт работы с командной строкой), знания языка Scala (способность создания не сложных OOP приложений).

Учебный план

Введение и архитектура Apache Flink

Потоковая и Batch обработка
Основные понятия и особенности потоковой обработки
Встречаем Flink: компоненты и первое приложение
Основные API

Datastream API: Базовые трансформации и работа с источниками данных

Основные операторы (трансформации)
Роллинг агрегации и reduce
Работа с источниками (Apache Kafka, файловые источники)

Datastream API: Работа с учетом времени

Архитектура Apache Flink
Event Time Processing
Оконные операции и джойны

Datastream API: Работа с состоянием

Низкоуровневые «process» функции и управление состоянием
Checkpoints, savepoints

Другие API, языки и системы

Flink Table API и SQL
Flink и python
Сравнение Flink с Kafka Streams и Spark Structured Streaming

FLINK: Потоковая обработка данных с помощью Apache Flink

Скачать программу курса «Потоковая обработка данных с помощью Apache Flink» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Кто проводит курс

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)

Профессиональные компетенции:

Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
Руководитель проектов с корпоративными данными
Ведущий Data Engineer АО “Альфастрахование”, Москва

География наших клиентов

Москва
Санкт-Петербург
Нижний Новгород
Екатеринбург
Казань
Краснодар
Красноярск
Перьм
Челябинск
Новосибирск

Томск
Тверь
Саратов
Самара
Ростов-на-Дону
Хабаровск
Волгоград
Калуга
Якутск
Севастополь
Тольяти
Владивоссток

Тюмень
Южно-Сахалинск
Уфа
Ставрополь
Минск
Алматы
Астана
Ташкент
Душанбе
Бешкек

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21 или заполнить форму обратной связи на сайте.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.