Курсы для инженеров данных

Практические курсы по организации ETL/ELT-процессов с большими данными для дата-инженеров и разработчиков: Apache Hadoop, Kafka, Spark, AirFlow, NiFi, Greenplum.
Пакеты и потоки, межсистемные интеграции, DWH и Data Lake

КТО ТАКОЙ ДАТА-ИНЖЕНЕР

Дата-инженер – это специалист, который отвечает за сбор из различных источников и доставку данных конечным потребителям: аналитикам и ученым по данным (Data Scientist’ам). Именно он работает с ETL/ELT-процессами, обеспечивает загрузку данных в корпоративные хранилища и озера, помогает ИТ-архитектору выстраивать эффективные системы аналитики больших данных, организуя конвейеры доставки и преобразования нужной информации из множества разных СУБД и файлов различных форматов.

Основные задачи дата-инженера - это построение конвейеров сбора данных из различных источников, организация ETL/ELT-процессов, преобразование форматов данных, загрузка данных в корпоративные хранилища и озера, доставка данных получателям (пользователям и сервисам) в нужное время и в нужном виде. Data Engineer работает согласно концепции DataOps, своевременно обеспечивая стейкхолдерам доступ к необходимой информации. Без дата-инженера аналитики не получат важные бизнес-метрики на BI-дэшбордах, а разработчики ML-систем не смогут обучить свои модели и запустить их на реальных данных. Разработка и тестирование архитектуры данных тоже является частью профессии data engineer.

Актуальность и независимость прикладных решений. Инженеры данных строят универсальные решения и могут без потери данных и скорости вычислений быстро перевести конвейеры их обработки на другие платформы. Дата-инженер знает, как обеспечить импортозамещение зарубежных BI-систем и legacy-платформ российскими альтернативами или open-source проектами, и умеет реализовать это без остановки бизнеса и производственных процессов.

Кому и где нужны дата-инженеры? Инженер данных - один из самых высокооплачиваемых профессий ИТ-специалистов в области Big Data. Средняя зарплата дата-инженера в России на 2024 год составляет около 5-х тысяч долларов. А в целом data engineer зарабатывает больше, чем аналитик данных и Data Scientist. Причем не только в России и странах бывшего СНГ, но и на рынках Европы, а также США и Канады.
В России чаще всего дата-инженеры требуются в Яндекс, ВК, Сбербанк, ВТБ, ФНС, Северсталь, X5 Retail Group, Ozon, Wildberries и множество других data-driven компаний: ИТ, ритейл, государственные организации, крупные агентства веб-аналитики и онлайн-рекламы, производственные предприятия, банки, страхование, масштабные корпорации и небольшие фирмы с большими объемами данных, получаемых из множества разных источников и направляемых в разные системы-приемники.

Проигрывать видео

Расписание курсов для дата-инженеров

Карта обучения дата-инженеров
в Школе Больших Данных

Основы обработки больших данных
DPREP: Подготовка данных для Data Mining на Python
Библиотеки Python и возможности PySpark для анализа и визуализации данных, подготовка датасетов для машинного обучения, выявление и формирование признаков
HDDE: Hadoop для инженеров данных
Пакетная и потоковая обработка данных средствами экосистемы Apache Hadoop: Airflow, Spark, Flume, Sqoop, Hive для организации озера данных и процессов ETL/ELT
AIRF: Data Pipeline на Apache Airflow и Apache Hadoop
Оркестрация сложных процессов и интеграция этой платформы с другими технологиями Big Data: полезные приемы дата-инженерии и лучшие практики проектирования и реализации ETL/ELT-пайплайнов
Продвинутый Python, PySpark и SQL
Архитектура и принципы работы Apache Hadoop
Напишите свой DAG для ETL/ELT-конвейера
Инструменты сбора и преобразования данных
CORS: Core Spark - основы для разработчиков
Возможности Apache Spark для разработки распределенных приложений: архитектура, принципы работы, модули, ключевые концепции, базовые структуры данных и их API
DBT: Data Build Tool для инженеров данных
CLI-инструмент для ETL: создание и настройка dbt-проекта, подключение к БД, модели, макросы и материализации SQL-запросов без выгрузки данных из источников в рамках ETL-пайплайна
DEVKI: Apache Kafka для инженеров данных
Архитектура и принципы работы популярной платформы потоковой передачи событий: Kafka DSL, основные API (Producer, Consumer, Streams, Connect) и их использование
RDD, Dataframe, Structured API и Spark SQL
Создайте и запустите свой dbt-проект
Producer и Consumer API, Kafka Streams, коннекторы
Фреймворки потоковой обработки
SPOT: Потоковая обработка в Apache Spark
Как обеспечить надежную обработку больших данных в реальном времени с Apache Spark Structured Streaming
NIFI3: Эксплуатация Apache NIFI
Проектирование и запуск потоковой маршрутизации, преобразования и доставки событий из разных источников в реальном времени с наглядным GUI
FLINK: Потоковая обработка данных с помощью Apache Flink
Лучшие практики использования Apache Flink для обработки потоковых данных в распределенных stateful-приложениях
Источники, потоки, трансформации, chekpoints
Создайте свой DataFlow по обработке FlowFile в NiFi
Datastream, оконные агрегации, Table API и SQL
Озера и хранилища данных
GPDE: Greenplum для инженеров данных и аналитиков данных
Особенности массово-параллельной архитектуры, отличия Greenplum от PostgreSQL, PXF для интеграции с внешними системами и возможности построения многоуровневого DWH
SPAD: Архитектура данных с Apache Spark
Как использовать Apache Spark для построения отказоустойчивой архитектуры хранения и аналитики больших данных, их преобразования и загрузки в DWH/Data Lake
CLICH: Построение хранилища данных на базе Clickhouse
Особенности колоночных СУБД, DDL и DML-операции в Clickhouse, администрирование, оптимизация производительности, интеграция с внешними источниками и BI-системами
Спроектируйте свое хранилище данных на Greenplum
Загрузите данные в DWH с помощью ETL-конвейера
Постройте свою витрину данных с Clickhouse

Все образовательные программы направления Data Engineering составлены практикующими экспертами с большим практическим опытом. Каждый из наших методистов-разработчиков и преподавателей работает как data engineer и отлично знает все рассматриваемые инструменты. В рамках обучения по любой образовательной программе вы менее чем за месяц под руководством опытного эксперта самостоятельно выполните проект и получите реальный опыт построения пайплайнов и использования современных инструментов.

Кому нужно обучение по Data Engineering

Практические курсы по инженерии данных предназначены для аналитиков, разработчиков программного обеспечения, руководителей и специалистов по работе с большими данными, которые хотят получить следующие знания и навыки:

Понять принципы организации и работы корпоративных хранилищ и озер данных

Познакомиться с основами Data Science и Machine Learning

Освоить лучшие практики построения ETL/ELT-конвейеров с Spark, Livy, AirFlow и других технологий Big Data, включая DevOps инструменты (docker)

Овладеть востребованными пакетными и потоковыми оркестраторами заданий (AirFlow, NiFi)

Научиться работать с технологиями потоковой передачи событий (Kafka, Spark Streaming, Flink)

Понять, что такое DataOps, чем отличается от devops и как это использовать: практический кейс

Наши курсы по инженерии данных помогут вам внедрить практики data-driven управления через быструю поставку требуемых данных нужным людям и приложениям. После обучения вы сможете начать профессиональную карьеру дата-инженера и разработчика Data Flow.
Выбирайте свою специализацию, а мы подберем для вас нужный обучающий курс или разработаем индивидуальную образовательную программу.

Как проходят практические тренинги по дата-инженерии в «Школе Больших Данных»

Курсы для дата-инженеров в нашем учебном центре организованы в виде краткосрочных интенсивов. Вы будете изучать только необходимую теорию с огромным количеством практики, чтобы менее чем за месяц повысить свой профессиональный уровень как дата инженер и получить новые навыки для работы.

Обучение проходит в форме интерактивного семинара (workshop). Каждое занятие предполагает индивидуальный фидбэк преподавателя по работе слушателя. Практическая часть включает проектирование собственных пакетных и потоковых ETL-конвейеров, а также их реализацию для DWH, Data Lake и конечных приложений.

Окончив курсы для дата-инженеров в нашем Учебном Центре с государственной лицензией на образовательную деятельность, вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельства о повышении квалификации.

Стань востребованным инженером данных вместе с BigDataSchool!
Поиск по сайту