GreenPlum для инженеров данных и аналитиков данных

5 дней практического обучения аналитиков, дата-инженеров и администраторов баз данных: анализ Big Data, организация ETL/ELT-процессов, построение корпоративных озер и хранилищ данных с масштабируемой отказоустойчивой open-source СУБД Greenplum Database.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
GPDE
25 сентября 2024
18 ноября 2024
27 января 2025
72 000 руб. 24 ак.часов
Количество дней: 3
Дистанционный
Регистрация

О продукте:

Greenplum – это массивно-параллельная (Massive Parallel Processing, MPP) реляционная СУБД с открытым исходным кодом для хранилищ данных с гибкой горизонтальной масштабируемостью и столбцовым хранением данных на основе PostgreSQL. Несколько взаимосвязанных экземпляров базы данных PostgreSQL объединены в кластер Greenplum без разделения ресурсов (Shared Nothing). Каждый узел кластера взаимодействует с другими для выполнения вычислительных операций, но имеет собственные ресурсы: оперативную память, операционную систему и жесткие диски. Благодаря особенностям MPP-архитектуры и мощному оптимизатору запросов, эта NoSQL-СУБД отличается надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных.

Эта MPP-СУБД широко применяется для аналитики больших данных в промышленных масштабах. Она обеспечивает надежное безопасное хранение и аналитическую обработку сотен терабайт, структурированных и слабоструктурированных данных для решения различных бизнес-задач. Например, построение систем предиктивной аналитики, корпоративных озер и хранилищ данных, организации регулярной отчетности и анализа оттока клиентов. Поэтому Greenplum широко применяется в ритейле, банках, телекоммуникационных компаниях, государственных предприятиях и других секторах экономики для организации витрин данных и быстрой аналитики Big Data с генерацией сложных отчетов в режиме практически реального времени.

Именно на базе Greenplum разработана отечественная MPP-СУБД Arenadata DB (ADB), адаптированная для корпоративного использования и зарегистрированная в Едином реестре российских программ. Поэтому Arenadata DB полностью соответствует политике импортозамещения и активно используется множеством государственных организаций и частных компаний России в качестве надежного средства построения многоуровневых озер и хранилищ данных в рамках комплексной цифровизации предприятий.

О курсе:

Курс даёт необходимые знания по эффективной и безопасной эксплуатации GreenPlum в качестве средства быстрой аналитики больших данных, а также основы многоуровневых Data Lake и КХД. Освоение каждой практической темы подкрепляется лабораторной работой. Выполнять лабораторные работы предлагаем на базе дистрибутива native Greenplum или Arenadata DB — выбор по желанию Слушателя.

Аудитория:

Авторский курс по Greenplum в Школе Больших Данных ориентирован на следующие категории ИТ-специалистов:

  • инженер данных (Data Engineer);
  • аналитик больших данных (Data Analyst);
  • администратор больших данных (Big Data Administrator);
  • администратор баз данных (Database Administrator).

Практические курсы по Greenplum предназначены для дата-инженеров, администраторов, системных архитекторов, аналитиков и разработчиков, которые хотят получить практические навыки по эффективной организации ETL/ELT-процессов, а также построению корпоративных озер и хранилищ данных на базе MPP-СУБД Greenplum.

Соотношение теории к практике 50/50

Предварительная подготовка:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Опыт работы с SQL

Программа курса GreenPlum для инженеров данных

1. Основы Greenplum: Greenplum как реляционная MPP СУБД

    • Введение в Greenplum
    • Архитектура Greenplum
    • Партиционирование таблиц, индексы
    • Транзакции и блокировки
    • Оптимизация и планы запросов
    • Лабораторная работа

2. Внешние данные и код: Greenplum как агрегатор данных и исполнитель кода

    • Механизм внешних таблиц, протоколы, PXF
    • Загрузка данных в Greenplum
    • Механизм UDF
    • Работа с JSON, XML
    • Экосистема и дополнительные библиотеки
    • Лабораторная работа

3. Greenplum в современных хранилищах данных

    • Архитектура озера данных
    • ETL, ELT и подготовка данных
    • GPSS и интеграция Greenplum с Kafka и Nifi
    • Обработка данных из Greenplum с помощью Spark
    • Построение многоуровневого хранилища на Greenplum
    • Лабораторная работа
Скачать программу курса «Greenplum для инженеров данных»

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Что Вы получите:

Успешно окончив курс «GreenPlum для инженеров данных и аналитиков данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:

Отзывы наших клиентов о курсе

Чтобы записаться на курс GPDE: GreenPlum для инженеров данных и аналитиков данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту