Потоковая обработка в Apache Spark

    4х-дневный практический курс для специалистов Big Data, которые используют или планируют использовать Apache Spark для потоковой обработки данных, и хотят получить опыт настройки и использования механизмов потоковой обработки с разными видами источников данных и нюансами практического использования возможностей Structured Streaming.

    О продукте

    Потоковая обработка (stream processing) — это метод анализа данных, поступающих непрерывно (например, сенсорные данные, логи, сообщения из соцсетей). В отличие от пакетной обработки, где данные накапливаются и обрабатываются партиями, потоковая обработка работает с данными «на лету».

    Spark Streaming — модуль Apache Spark, предназначенный для обработки потоков данных. Он использует микропакетную модель: непрерывный поток разбивается на небольшие пакеты (микробатчи), которые обрабатываются как RDD (Resilient Distributed Datasets).

    Аудитория

    • Data Engineers и аналитики, работающие с большими данными.
    • Разработчики, желающие создавать масштабируемые ETL-процессы и ML-модели.
    • Архитекторы, планирующие внедрение Spark в облачные среды (Kubernetes)

    Уровень подготовки

    • Опыт работы в Unix/SQL;
    • Начальный опыт программирования (Python/Java);
    • Знания в объеме, аналогичном курсу Core Spark
    • Начальный опыт в экосистеме Hadoop
    • Базовые знания Kafka

    О курсе

    На курсе будут рассмотрены гибкие инструменты экосистемы Apache Spark и два подхода к решению задач по потоковой обработке данных в реальном времени — микропакетная модель (Spark Streaming) и современный подход с бесконечными таблицами (Structured Streaming). Выбор между ними зависит от задач: DStreams подходит для низкоуровневого контроля, а Structured Streaming — для удобства и оптимизаций. Для максимальной производительности Вы научитесь правильно настраивать размеры батчей, управлять памятью и использовать механизмы отказоустойчивости.

    Программа курса «Потоковая обработка в Apache Spark»

    1. Введение в потоковую обработку

      • Потоковая и пакетная обработка данных
      • Особенности потоковой обработки
      • Надежность и потоковая обработка.

    2. Потоковая обработка в Apache Spark

      • Два вида потоков (на основе RDD и Dataframe)
      • Парадигма потоковой обработки в Structured Streaming
      • Источники (sources и sink).

    3. Совместное использование Batch и Streaming

      • Трансформации и действия в Apache Spark
      • Объединение данных в Spark (join)
      • Особенности использования трансформаций при работе с потоковыми данными

    4. Источники потоковых данных

      • Файловый источник данных
      • Apache Kafka как источник данных
      • Другие источники потоковых данных

    5. Обеспечение надежности потоковой обработки в Apache Spark

      • Механизм checkpoint в Apache Spark
      • Настройка streaming checkpoint

    Программа курса «SPOT: Потоковая обработка в Apache Spark»

    Скачать программу курса «Потоковая обработка в Apache Spark» в формате pdf

    Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

    Что Вы получите

    Окончив курс «Потоковая обработка в Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.

    Кто проводит курс

    Королев Михаил
    МГУ им. М.В. Ломоносова (Москва, 1988)

      Чтобы записаться на курс SPOT: Потоковая обработка в Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.