Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

17Ноя
2022

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi примеры курсы обучение load balancing балансировка нагрузки, обучение дата-инженеров, инженер данных NiFI примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Поскольку Apache NiFi является распределенной системой стека Big Data, для него очень значимы вопросы балансировки нагрузки. Поэтому сегодня разберем важную для обучения дата-инженеров и администраторов кластера NiFi тему по балансировке нагрузки и распространению данных в этом потоковом ETL-фреймворке. Как происходит балансировка нагрузки в кластере Apache NiFi До версии 1.8 в...

15Ноя
2022

Мю-модель: новая ML-подобная архитектура данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Архитектура данных Мю Лямбда Каппа Data fabric Data Mesh курсы примеры обучение, архитектор Big Data курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Что не так с конвейерной моделью обработки данных и почему архитектура Data Mesh с потоковой передачей событий не решают всех проблем пакетной парадигмы. Зачем нужна новая архитектура данных под названием Мю, какие инструменты и принципы она использует для устранения технологической неоднородности отдельных технологий Big Data, а также при чем здесь...

14Ноя
2022

Чем плохи медленные потребители для Apache Kafka, как их обнаружить и ускорить

Автор Анна Вичуговав категории Kafka, Блог

конфигурации Kafka потребители, мониторинг системных метрик Apache Kafka примеры инструментов, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, мониторинг за кластером Kafka, Apache Kafka для администраторов и дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера Apache Kafka разберем, какие ошибки создают медленные потребители и как решить их, просто изменив значений конфигураций по умолчанию. А также познакомимся с Lighthouse - еще одним полезным инструментом мониторинга системных метрик, который позволит обнаружить эти и другие проблемы. Проблема медленных потребителей...

13Ноя
2022

Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive AWS EKS data lake, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Delta Lake, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустить его высокодоступный и масштабируемый сервис в Amazon EKS путем контейнеризации приложения. Зачем нужно внешнее хранилище метаданных Apache Hive? Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы. Это NoSQL-хранилище...

12Ноя
2022

Как применить триггеры Apache Spark Structured Streaming для пакетных заданий

Автор Анна Вичуговав категории Spark, Блог

озеро данных, архитектура данных Delta Lake Spark, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Можно ли применять Apache Spark Structured Streaming для пакетных заданий и в каких случаях это целесообразно. Разбираемся, как устроена потоковая передача событий в Spark Structured Streaming, с какой частотой разные режимы триггеров микропакетной обработки данных запускают потоковые вычисления и что выбрать дата-инженеру. Потоковая передача событий и пакетные задания: versus или...

10Ноя
2022

Под капотом источников данных Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink data source Примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка больших данных с Apache Flink обучение примеры курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Flink еще более полезными для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных, сегодня разберем, как работают источники данных потоковой обработки на примере топиков Kafka. Источники данных в Apache Flink Наряду с Apache Spark, Flink также является популярным фреймворком пакетной и потоковой обработки...

09Ноя
2022

Шифрование данных в Greenplum с расширением pgcrypto

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum для администраторов и дата-инженеров примеры курсы обучение, безопасность Greenplum, Greenplum настройка шифрование примеры, Greenplum pgcrypto, обучение администраторов Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Greenplum еще более полезными для дата-инженеров и администраторов, сегодня познакомимся с pgcrypto – важным расширением этой MPP-СУБД, которое предоставляет криптографические функции, чтобы хранить некоторые столбцы данных в зашифрованном виде. Как установить расширение pgcrypto и использовать его для улучшения безопасности Greenplum. Шифрование данных в Greenplum База...

07Ноя
2022

ТОП-7 проблем с платформами данных и способы их обойти

Автор Анна Вичуговав категории Блог, Статьи

архитектура данных примеры курсы обучение, ETL Data Lake Delta Lake инженерия данных примеры курсы обучение, инженер данных архитектор платформы данных обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных. 7 главных проблем с платформами данных Обычно каждая data-driven компания органично развивает свои платформы данных, усложняя их архитектуры. Но этот процесс эволюционного...

06Ноя
2022

Гибкая десериализация сообщений в Apache Kafka: от JSON к AVRO и наоборот

Автор Анна Вичуговав категории Kafka, Блог

сериализация и десериализация сообщений Kafka, Kafka курсы примеры обучение, обучение большим данным, Kafka реестр схем примеры курсы обучение, Apache Kafka для дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сериализацию и десериализацию данных в Apache Kafka. Продолжая эту важную для обучения дата-инженеров и разработчиков распределенных приложений тему, рассмотрим особенности преобразования и валидации сообщений в JSON-формате, а также поговорим про автоматическую идентификацию формата сообщения. Сериализация и десериализация данных в Apache Kafka Выполняя роль интеграционной платформы, Apache...

05Ноя
2022

Spark Connect: тонкий клиент от Databricks

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Примеры курсы обучение, Spark Connect от Databricks, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В июле 2022 года на конференции Data and AI Summit компания Databricks представила новый проект для экосистемы Apache Spark под названием Spark Connect. Что это такое и как оно пригодится разработчикам распределенных приложений и дата-инженерам, читайте далее. Что не так с Apache Spark и зачем нужен новый проект Databricks Появившись...