Архитектура данных с Apache Spark: от проектирования до реализации
Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров
Код курса
SPAD
Ближайшая дата курса
29 января, 2024
Длительность обучения
24 ак.часов
Стоимость обучения
66 000 руб.
Кому нужно обучение по Архитектуре Данных С Apache Spark
Цель курса:
Аудитория:
- Начинающие инженеры данных или инженеры данных с опытом, которые хотят изучить Spark scala API;
- Аналитики данных, которые хотят изучить Spark scala API;
Предварительный уровень подготовки:
- Базовые знания Python или любого другого языка;
- Базовые знания Linux;
Как проходят курсы
Офлайн-обучение или онлайн-курс проходят в формате интерактивного семинара: даже в дистанционном режиме с вами занимается живой преподаватель - рассказывает теорию, дает практические задания и проверяет результаты выполнения. В качестве примеров рассматриваются кейсы из реального бизнеса и лучшие практики data-driven управления
Продолжительность курса: 24 ак.часа, 6 дней по 4 ак.часа (теория / практика )
Соотношение теории к практике: 50/50
Инструментальные средства: для практических занятий используются бесплатные среды для разработки (Jupyter Notebook и IDEA) и российские решения (ArenaData).
Чему вы научитесь
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективной работы с большими объемами данных с использованием Apache Spark на языке scala, и сможете:
Считывать данные из HDFS или СУБД с помощью Spark
Разрабатывать Spark-приложения
Оптимизировать spark-приложения
Запускать spark приложения в среде Hadoop
Оркестрировать Spark приложения в Airflow
По завершении обучения вы получите
Программа курса
"SPAD: Архитектура данных с Apache Spark"
- Изучение теоретических основ Big Data и Hadoop
- Схема звезды и снежинки
- Изучение DWH
- Изучение DataLake
- Изучение Data Vault
Разбираем язык scala:
- Теоретические основы
- Типы данных
- Базовый синтаксис
- ООП
- Работа с зависимостями (sbt)
- Практика в среде IDEA
Основы Spark:
- Введение в основные понятия и архитектуру
- Основные структуры данных
- Операции и actions
- Практика в среде Jupyter Notebook – инициализация и конфиги
Операции на Spark:
- Чтение данных из разных источников
- Базовые трансформации
- Более продвинутые операции и UDF
- Запись данных
- Запуск приложения в среде кластера
- Практика в среде Jupyter Notebook и IDEA – разбираем операции и работаем с данными
Оптимизация Spark-приложения:
- Базовые понятия – shuffling, broadcast, кэширование и так далее
- Физическое исполнение операций соединения
- Разбор Spark UI
- Оптимизация Spark-приложений
- Практика в среде IDEA – запуск задач в среде кластера и оптимизация приложения
- Основы Apache Airflow
- Обзор основных операторов, создание Dag Airflow и запуск Spark-задачи
- Практика в среде ArenaData
Программа курса «SPAD: Архитектура данных с Apache Spark»
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Кто проводит курс
Темирханов Зелимхан Ибрагимович
Российская академия народного хозяйства и государственной службы
при президенте РФ, ЭМИТ, цифровая экономика
Профессиональные компетенции:
- Организация ETL-конвейеров (Apache Airflow, Spark)
- Старший разработчик (Axenix ex. Accenture) дата-инженер
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hdfs, Kafka, Spark, Hive)