Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

20Янв
2023

CDC для ETL-процессов в озеро данных: принципы работы, паттерны и ограничения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Захват измененных данных считается довольно известным паттерном организации ETL-процессов для корпоративных хранилищ и озер данных. Как реализуется CDC-технология, по каким шаблонам, что их ограничивает и чем опасен дрейф изменений в Change Data Capture. Паттерны и принципы реализации захвата измененных данных Эффективность эксплуатации озера данных зависит от ETL-процессов, поскольку объемы данных...

19Янв
2023

Автомасштабирование приложений-потребителей из Apache Kafka на Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Kafka Kubernetes автомасштабирование, автоматическое вертикальное и горизонтальное масштабирование приложений-потребителей Apache Kafka на Kubernetes, DevOps Big Data прмиеры курсы обучение, администрирование кластера Apache Kafka инженер данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье рассмотрим настройку инфраструктуры Kubernetes для потоковой платформы комплексных мобильных приложений на основе Apache Kafka. Что поможет добиться оптимальной масштабируемости приложений-потребителей и высокой доступности всей Big Data системы. Проблемы масштабирования платформы Grab из приложений-потребителей Apache Kafka Grab считается ведущей платформой суперприложений в 8 странах Юго-Восточной Азии, которая предоставляет...

18Янв
2023

Управление памятью в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как оптимизировать потребление памяти в приложениях Apache Flink, разобрав основные принципы работы и конфигурации настройки памяти этого вычислительного фреймворка. А также перечислим типовые ошибки, с которыми дата-инженер может столкнуться при разработке и эксплуатации Flink-приложений Компоненты памяти в Apache Flink Apache Flink обеспечивает эффективные рабочие нагрузки поверх JVM, строго...

17Янв
2023

Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

резервное копирование и восстановление данных Apache HBase, бэкапы HBase, обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности резервного копирования данных в Apache HBase на примере ИТ-компании Clairvoyant. Сегодня рассмотрим опыт индийской компании Myntra, которая предложила простую методику создания инкрементных бэкапов для Apache HBase 2.1.4 и Hadoop 2.7.3, а также восстановления нужных данных из этих резервных копий в BLOB-хранилищах по требованию пользователя. 5...

16Янв
2023

Сборка мусора и очистка таблиц в Greenplum с командой VACUUM

Автор Анна Вичуговав категории Greenplum, Блог

очистка таблиц базы данных Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, VACCUM Greenplum PostgreSQL примеры курсы обучение, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое SQL-оператор VACUUM, зачем эта команда нужна в Greenplum и как она работает. Разбираемся с таблицами системного каталога и тонкостями ускорения SQL-запросов в самой популярной MPP-СУБД. Что такое сборка мусора в Greenplum и PostgreSQL Напомним, в объектно-реляционной базе данных PostgreSQL, на которой основана MPP-СУБД Greenplum, о чем мы писали...

15Янв
2023

Зомби-задачи в Apache AirFlow: как их обнаружить и убить окончательно

Автор Анна Вичуговав категории AirFlow, Блог

DAG задачи AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Хотя Apache AirFlow считается достаточно зрелой платформой оркестрации рабочих процессов, при практическом использовании этого фреймворка дата-инженер может столкнуться с некоторыми сложностями. Одной из таких проблем являются так называемые «зомби-задачи». Разбираемся, чем они опасны, и как от них избавиться. Что такое зомби-задачи и чем они опасны В Unix-подобных операционных системах есть...

14Янв
2023

MLOps c Kubeflow: компоненты ML-конвейера

Автор Анна Вичуговав категории Machine Learning, Блог

Kubeflow примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, Kubeflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Помимо популярного MLflow от Databrics, специалисты по машинному обучению часто используют другой MLOps-инструмент – Kubeflow, о чем мы писали здесь. Сегодня разберем, как работает это средство, упрощающее разработку и развертывание конвейеров Machine Learning на платформе контейнерной виртуализации Kubernetes. Что такое конвейеры Kubeflow и как они работают Как мы уже отмечали,...

13Янв
2023

Самообслуживаемый сервис Apache Spark Structured Streaming для Delta Lake

Автор Анна Вичуговав категории Spark, Блог

Data Lake Delta Lake Spark Structured Streaming архитектура данных примеры курсы обучение, Spark Structured Streaming для архитектора и разработчика, Spark Structured Streaming дата-инженерия, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и ИТ-архитекторов рассмотрим, как Apache Spark Structured Streaming помогает реализовать самообслуживаемый сервис потоковой передачи данных в Delta Lake. А также вспомним каноническую 3-хслойную модель этого уровня хранения от Databricks. Много потоковых сценариев в одном приложении Apache Spark Structured Streaming Мы недавно писали, что архитектуры,...

12Янв
2023

3 репозитория Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

репозитории Apache NiFi, Apache NiFi администратор кластера примеры курсы обучение, администрирование Apache NiFi лучшие практики примеры курсы обучение, Apache NiFi дата-инженер курсы обучения, инженерия данных курсы примеры обучение, инженер данных Big Data Apache NiFi примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Apache NiFi, чтобы понять, какие данные хранит этот потоковый ETL-маршрутизатор, зачем и где. Репозитории Apache NiFi для администратора, дата-инженера и проектировщика конвейеров обработки данных: как они устроены и какие практики улучшают их работу. Репозитории Apache NiFi: что это такое и зачем они нужны В Apache NiFi...

10Янв
2023

Flink + Kafka: Confluent купил Immerok

Автор Анна Вичуговав категории Flink, Kafka, Блог

Confluent Cloud Immerok Kafka Flink 2023, Apache Kafka Confluent Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink Kafka, обучение дата-инженеров и разработчиков Kafka Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Зачем корпорации Confluent, которая продвигает Apache Kafka, понадобился Flink-стартап, чего ожидать от очередного слияния поглощения крупным игроком более мелкого предприятия, и какую пользу это принесет экосистеме потоковой передачи событий. Что Immerok и зачем это Confluent Год только начался, а в мире Big Data уже появились интересные новости. 6 января в...