Все курсы
Потоковая обработка данных с помощью Apache Flink
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
FLINK | 01 августа 2024 28 октября 2024 |
48 000 руб. | 16 ак.часов | Дистанционный |
Регистрация |
Что такое Apache Flink и где это используется
Apache Flink – это фреймворк и распределённый вычислительный движок для обработки ограниченных и неограниченных потоков данных с сохранением состояния (stateful computations). Flink относят к потоковым процессорам третьего поколения, он обладает интуитивными и выразительными API, с помощью которых можно создать масштабируемую отказоустойчивую систему обработки потока данных. Flink хорошо подходит для реализации систем потоковой обработки, использующих состояние (stateful stream processing), его уникальный механизм точек сохранения (checkpoints и savepoints) позволяет реализовать exactly-once гарантию консистентности данных и эффективно восстанавливать потоковую обработку без потери и дублирования в случае сбоев или регламентных окон, а также обеспечивает легкие и понятные способы масштабирования работающих в продуктивной среде приложений.
На практике Apache Flink широко используется для решения широкого спектра задач, начиная от построения процессоров потоковой обработки данных реального времени и заканчивая реализацией сложных сценариев потоковой подготовки данных и потоковой аналитики данных. С помощью Flink можно построить приложения, использующие парадигму «событийного управления» (Event Driven Applications).
Flink может использоваться не только для потоковой обработки, но и для обработки статических массивов данных (batch processing), хорошо взаимодействует с источниками потоковых и статических данных, такими как Apache Kafka, Kinesis, RabbitMQ, Apache Nifi, Cassandra, ElasticSearch, а также JDBC источниками и различными файловыми системами.
О Курсе “Потоковая обработка данных с помощью Apache Flink”
2-хдневный курс обучения по Flink позволит вам получить и систематизировать знания по использованию Flink для построения систем потоковой обработки данных. Курс нацелен на вопросы использования возможностей Apache Flink для обработки прежде всего потоковых данных, включая нюансы извлечения меток времени и генерации watermarks, лучшие практики (best practices) использования механизмов временных окон, работы с локальным состоянием, вопросы эффективности и параллелизма обработки, тонкости работы с источниками данных и многое другое.
Вы изучите необходимый теоретический минимум, чтобы понять основные концепции фреймворка Flink, его подходы к преобразованию потока данных, нюансы работы с потоком в терминах времени событий или времени обработки (event vs processing time), виды сохраняемого состояния (state type and primitives), работу с источниками потоковых данных. Преподаватель курса “Потоковая обработка данных с помощью Apache Flink” подробно объяснит все тонкости и особенности настройки механизмов извлечения времени, работы с состоянием и локальным кластером Apache Flink с тем, чтобы вы могли самостоятельно разрабатывать собственные системы потоковой обработки данных по окончании курса.
На практике вы реализуете собственные потоковые процессоры с помощью Apache Flink, научитесь работать с метками времени и watermarks, сможете выполнять базовые трансформации потоковых данных, использовать временные окна, обрабатывать данные из Apache Kafka и файловых источников.
Во время курса вы также получите информацию о сравнении возможностей Apache Flink с аналогами (Kafka Streams и Spark Structured Streaming).
Курс предполагает использование языка Scala.
Продолжительность: 16 ак. часа, 2 дня (теория / практика).
Аудитория: Дата-инженеры и специалисты по данным, которые хотят изучить необходимый теоретический минимум по Apache Flink, чтобы понять основные концепции фреймворка, stateful преобразований и доставки данных из сторонних систем, а также узнать особенности подхода Flink к построению масштабируемых надежных конвейеров обработки потоковых данных.
Требования к предварительному уровню подготовки: Уверенное знание базовых команд Linux (опыт работы с командной строкой), знания языка Scala (способность создания не сложных OOP приложений).
Учебный план
- Введение и архитектура Apache Flink
- Потоковая и Batch обработка
- Основные понятия и особенности потоковой обработки
- Встречаем Flink: компоненты и первое приложение
- Основные API
- Datastream API: Базовые трансформации и работа с источниками данных
- Основные операторы (трансформации)
- Роллинг агрегации и reduce
- Работа с источниками (Apache Kafka, файловые источники)
- Datastream API: Работа с учетом времени
- Архитектура Apache Flink
- Event Time Processing
- Оконные операции и джойны
- Datastream API: Работа с состоянием
- Низкоуровневые «process» функции и управление состоянием
- Checkpoints, savepoints
- Другие API, языки и системы
- Flink Table API и SQL
- Flink и python
- Сравнение Flink с Kafka Streams и Spark Structured Streaming
FLINK: Потоковая обработка данных с помощью Apache Flink
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Кто проводит курс
Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва
География наших клиентов
- Москва
- Санкт-Петербург
- Нижний Новгород
- Екатеринбург
- Казань
- Краснодар
- Красноярск
- Перьм
- Челябинск
- Новосибирск
- Томск
- Тверь
- Саратов
- Самара
- Ростов-на-Дону
- Хабаровск
- Волгоград
- Калуга
- Якутск
- Севастополь
- Тольяти
- Владивоссток
- Тюмень
- Южно-Сахалинск
- Уфа
- Ставрополь
- Минск
- Алматы
- Астана
- Ташкент
- Душанбе
- Бешкек