Архитектура данных с Apache Spark: от проектирования до реализации

Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров
Код курса
SPAD
Ближайшая дата курса
29 января, 2024
Длительность обучения
24 ак.часов
Стоимость обучения
66 000 руб.

Кому нужно обучение по Архитектуре Данных С Apache Spark

Цель курса:

освоить терминологию архитектур хранилищ данных, разобрать архитектуру Spark, научиться писать и оптимизировать Spark приложения на языке scala.

Аудитория:

Предварительный уровень подготовки:

Как проходят курсы

Офлайн-обучение или онлайн-курс проходят в формате интерактивного семинара: даже в дистанционном режиме с вами занимается живой преподаватель - рассказывает теорию, дает практические задания и проверяет результаты выполнения. В качестве примеров рассматриваются кейсы из реального бизнеса и лучшие практики data-driven управления

Продолжительность курса: 24 ак.часа, 6 дней по 4 ак.часа (теория / практика )

Соотношение теории к практике: 50/50

Инструментальные средства: для практических занятий используются бесплатные среды для разработки (Jupyter Notebook и IDEA) и российские решения (ArenaData).

Чему вы научитесь

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективной работы с большими объемами данных с использованием Apache Spark на языке scala, и сможете:

Считывать данные из HDFS или СУБД с помощью Spark

Разрабатывать Spark-приложения

Оптимизировать spark-приложения

Запускать spark приложения в среде Hadoop

Оркестрировать Spark приложения в Airflow

По завершении обучения вы получите

Успешно окончив курс "Архитектура данных с Apache Spark: от проектирования до реализации" в нашем лицензированном учебном центре «Школа Больших Данных»вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.
lic_2020-scaled.jpg
Государственная лицензия на образовательную деятельность – Школа Больших Данных (ООО “Учебный центр “Коммерсант”)

Программа курса

"SPAD: Архитектура данных с Apache Spark"

  • Изучение теоретических основ Big Data и Hadoop
  • Схема звезды и снежинки
  • Изучение DWH
  • Изучение DataLake
  • Изучение Data Vault

Разбираем язык scala:

  • Теоретические основы
  • Типы данных
  • Базовый синтаксис
  • ООП
  • Работа с зависимостями (sbt)
  • Практика в среде IDEA

Основы Spark:

  • Введение в основные понятия и архитектуру
  • Основные структуры данных
  • Операции и actions
  • Практика в среде Jupyter Notebook – инициализация и конфиги

Операции на Spark:

  • Чтение данных из разных источников
  • Базовые трансформации
  • Более продвинутые операции и UDF
  • Запись данных
  • Запуск приложения в среде кластера
  • Практика в среде Jupyter Notebook и IDEA – разбираем операции и работаем с данными

 Оптимизация Spark-приложения:

  • Базовые понятия – shuffling, broadcast, кэширование и так далее
  • Физическое исполнение операций соединения
  • Разбор Spark UI
  • Оптимизация Spark-приложений
  • Практика в среде IDEA – запуск задач в среде кластера и оптимизация приложения
  • Основы Apache Airflow
  • Обзор основных операторов, создание Dag Airflow и запуск Spark-задачи
  • Практика в среде ArenaData

Программа курса «SPAD: Архитектура данных с Apache Spark»

Скачать программу курса «Архитектура данных с Apache Spark»

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Кто проводит курс

Темирханов Зелимхан Ибрагимович

Темирханов Зелимхан Ибрагимович

Российская академия народного хозяйства и государственной службы
при президенте РФ, ЭМИТ, цифровая экономика
Профессиональные компетенции:

Записаться на курс

Остались вопросы по формату обучения, содержанию курсов, стоимости, сертификатам или другим важным моментам?
Оставьте номер телефона или e-mail и мы оперативно проконсультируем вас в течение рабочего дня.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту