Курсы для инженеров данных

Практические курсы по организации ETL/ELT-процессов с большими данными для дата-инженеров и разработчиков: Apache Hadoop, Kafka, Spark, AirFlow, NiFi, Greenplum.
Пакеты и потоки, межсистемные интеграции, DWH и Data Lake

КТО ТАКОЙ ДАТА-ИНЖЕНЕР

Дата-инженер – это специалист, который отвечает за сбор из различных источников и доставку данных конечным потребителям: аналитикам и ученым по данным (Data Scientist’ам). Именно он работает с ETL/ELT-процессами, обеспечивает загрузку данных в корпоративные хранилища и озера, помогает ИТ-архитектору выстраивать эффективные системы аналитики больших данных, организуя конвейеры доставки и преобразования нужной информации из множества разных СУБД и файлов различных форматов.

Основные задачи дата-инженера - это построение конвейеров сбора данных из различных источников, организация ETL/ELT-процессов, преобразование форматов данных, загрузка данных в корпоративные хранилища и озера, доставка данных получателям (пользователям и сервисам) в нужное время и в нужном виде. Data Engineer работает согласно концепции DataOps, своевременно обеспечивая стейкхолдерам доступ к необходимой информации. Без дата-инженера аналитики не получат важные бизнес-метрики на BI-дэшбордах, а разработчики ML-систем не смогут обучить свои модели и запустить их на реальных данных. Разработка и тестирование архитектуры данных тоже является частью профессии data engineer.

Актуальность и независимость прикладных решений. Инженеры данных строят универсальные решения и могут без потери данных и скорости вычислений быстро перевести конвейеры их обработки на другие платформы. Дата-инженер знает, как обеспечить импортозамещение зарубежных BI-систем и legacy-платформ российскими альтернативами или open-source проектами, и умеет реализовать это без остановки бизнеса и производственных процессов.

Кому и где нужны дата-инженеры? Инженер данных - один из самых высокооплачиваемых профессий ИТ-специалистов в области Big Data. Средняя зарплата дата-инженера в России на 2024 год составляет около 5-х тысяч долларов. А в целом data engineer зарабатывает больше, чем аналитик данных и Data Scientist. Причем не только в России и странах бывшего СНГ, но и на рынках Европы, а также США и Канады.
В России чаще всего дата-инженеры требуются в Яндекс, ВК, Сбербанк, ВТБ, ФНС, Северсталь, X5 Retail Group, Ozon, Wildberries и множество других data-driven компаний: ИТ, ритейл, государственные организации, крупные агентства веб-аналитики и онлайн-рекламы, производственные предприятия, банки, страхование, масштабные корпорации и небольшие фирмы с большими объемами данных, получаемых из множества разных источников и направляемых в разные системы-приемники.

Проигрывать видео

Расписание курсов для дата-инженеров

Код курса Название курса Дата начала курса Цена Ак.часов Дней
GPDEGreenplum для инженеров данных и аналитиков данных07 Июл22 Сен72 000 руб.245
DEVKIApache Kafka для инженеров данных08 Сен24 Ноя72 000 руб.245
NIFI3Эксплуатация Apache NIFI25 Июн10 Сен72 000 руб.243
AIRFData Pipeline на Apache Airflow01 Сен01 Дек72 000 руб.246
CLICHПостроение DWH на ClickHouse14 Июл22 Сен72 000 руб.245
CORSCore Spark - основы для разработчиков22 Сен01 Дек48 000 руб.164
SPOTПотоковая обработка в Apache Spark25 Авг48 000 руб.164

Карта обучения дата-инженеров
в Школе Больших Данных

Основы обработки больших данных
DPREP: Подготовка данных для Data Mining на Python
Библиотеки Python и возможности PySpark для анализа и визуализации данных, подготовка датасетов для машинного обучения, выявление и формирование признаков
HDDE: Hadoop для инженеров данных
Пакетная и потоковая обработка данных средствами экосистемы Apache Hadoop: Airflow, Spark, Flume, Sqoop, Hive для организации озера данных и процессов ETL/ELT
AIRF: Data Pipeline на Apache Airflow и Apache Hadoop
Оркестрация сложных процессов и интеграция этой платформы с другими технологиями Big Data: полезные приемы дата-инженерии и лучшие практики проектирования и реализации ETL/ELT-пайплайнов
Продвинутый Python, PySpark и SQL
Архитектура и принципы работы Apache Hadoop
Напишите свой DAG для ETL/ELT-конвейера
Инструменты сбора и преобразования данных
CORS: Core Spark - основы для разработчиков
Возможности Apache Spark для разработки распределенных приложений: архитектура, принципы работы, модули, ключевые концепции, базовые структуры данных и их API
DBT: Data Build Tool для инженеров данных
CLI-инструмент для ETL: создание и настройка dbt-проекта, подключение к БД, модели, макросы и материализации SQL-запросов без выгрузки данных из источников в рамках ETL-пайплайна
DEVKI: Apache Kafka для инженеров данных
Архитектура и принципы работы популярной платформы потоковой передачи событий: Kafka DSL, основные API (Producer, Consumer, Streams, Connect) и их использование
RDD, Dataframe, Structured API и Spark SQL
Создайте и запустите свой dbt-проект
Producer и Consumer API, Kafka Streams, коннекторы
Фреймворки потоковой обработки
SPOT: Потоковая обработка в Apache Spark
Как обеспечить надежную обработку больших данных в реальном времени с Apache Spark Structured Streaming
NIFI3: Эксплуатация Apache NIFI
Проектирование и запуск потоковой маршрутизации, преобразования и доставки событий из разных источников в реальном времени с наглядным GUI
FLINK: Потоковая обработка данных с помощью Apache Flink
Лучшие практики использования Apache Flink для обработки потоковых данных в распределенных stateful-приложениях
Источники, потоки, трансформации, chekpoints
Создайте свой DataFlow по обработке FlowFile в NiFi
Datastream, оконные агрегации, Table API и SQL
Озера и хранилища данных
GPDE: Greenplum для инженеров данных и аналитиков данных
Особенности массово-параллельной архитектуры, отличия Greenplum от PostgreSQL, PXF для интеграции с внешними системами и возможности построения многоуровневого DWH
SPAD: Архитектура данных с Apache Spark
Как использовать Apache Spark для построения отказоустойчивой архитектуры хранения и аналитики больших данных, их преобразования и загрузки в DWH/Data Lake
CLICH: Построение хранилища данных на базе Clickhouse
Особенности колоночных СУБД, DDL и DML-операции в Clickhouse, администрирование, оптимизация производительности, интеграция с внешними источниками и BI-системами
Спроектируйте свое хранилище данных на Greenplum
Загрузите данные в DWH с помощью ETL-конвейера
Постройте свою витрину данных с Clickhouse

Все образовательные программы направления Data Engineering составлены практикующими экспертами с большим практическим опытом. Каждый из наших методистов-разработчиков и преподавателей работает как data engineer и отлично знает все рассматриваемые инструменты. В рамках обучения по любой образовательной программе вы менее чем за месяц под руководством опытного эксперта самостоятельно выполните проект и получите реальный опыт построения пайплайнов и использования современных инструментов.

Кому нужно обучение по Data Engineering

Практические курсы по инженерии данных предназначены для аналитиков, разработчиков программного обеспечения, руководителей и специалистов по работе с большими данными, которые хотят получить следующие знания и навыки:

Понять принципы организации и работы корпоративных хранилищ и озер данных

Познакомиться с основами Data Science и Machine Learning

Освоить лучшие практики построения ETL/ELT-конвейеров с Spark, Livy, AirFlow и других технологий Big Data, включая DevOps инструменты (docker)

Овладеть востребованными пакетными и потоковыми оркестраторами заданий (AirFlow, NiFi)

Научиться работать с технологиями потоковой передачи событий (Kafka, Spark Streaming, Flink)

Понять, что такое DataOps, чем отличается от devops и как это использовать: практический кейс

Наши курсы по инженерии данных помогут вам внедрить практики data-driven управления через быструю поставку требуемых данных нужным людям и приложениям. После обучения вы сможете начать профессиональную карьеру дата-инженера и разработчика Data Flow.
Выбирайте свою специализацию, а мы подберем для вас нужный обучающий курс или разработаем индивидуальную образовательную программу.

Как проходят практические тренинги по дата-инженерии в «Школе Больших Данных»

Курсы для дата-инженеров в нашем учебном центре организованы в виде краткосрочных интенсивов. Вы будете изучать только необходимую теорию с огромным количеством практики, чтобы менее чем за месяц повысить свой профессиональный уровень как дата инженер и получить новые навыки для работы.

Обучение проходит в форме интерактивного семинара (workshop). Каждое занятие предполагает индивидуальный фидбэк преподавателя по работе слушателя. Практическая часть включает проектирование собственных пакетных и потоковых ETL-конвейеров, а также их реализацию для DWH, Data Lake и конечных приложений.

Окончив курсы для дата-инженеров в нашем Учебном Центре с государственной лицензией на образовательную деятельность, вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельства о повышении квалификации.

Стань востребованным инженером данных вместе с BigDataSchool!