Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

27Июн
2022

Apache Spark 3.3.0: ТОП-10 новинок июльского релиза 2022

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL до профилирования UDF на Python. Главные изменения Apache Spark 3.3.0 Apache Spark 3.3.0 — это четвертый релиз линейки 3.x, в...

26Июн
2022

Мониторинг задержки в приложениях Apache Flink

Автор Анна Вичуговав категории Flink, Блог

мониторинг Flink приложений, метрики приложений Apache Flink, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы говорили про непрерывный мониторинг Flink-приложений и подробно рассмотрели метрики состояния и пропускной способности. В продолжение этой важной для разработчиков и дата-инженеров темы, сегодня рассмотрим, как идентифицировать временную задержку обработки данных. Пользовательские метрики задержки в потоковых приложениях Для потоковых приложений, которые обрабатывают события в режиме, близком к реальному времени,...

25Июн
2022

SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow sigterm, AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow конвейер обработки данных примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Каждый дата-инженер, который работает с Apache Airflow, сталкивался с сигналом SIGTERM, который отправляется задачам и приводит к сбою DAG. Сегодня рассмотрим, почему случается исключение airflow.exceptions.AirflowException, которое генерирует этот сигнал, и как его избежать. Тайм-аут выполнения DAG Одна из причин, по которой задача получает сигнал SIGTERM, связана с небольшим значением параметра...

24Июн
2022

Происхождение данных в Apache Spark со Spline и не только

Автор Анна Вичуговав категории Spark, Блог

Spline spark data lineage, происхождение данных Spark, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark инженерия данных, Apache Spark разработчик дата-инженер примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы рассказывали, почему важна наблюдаемость данных какие платформы помогают комплексно обеспечить все ее аспекты. В продолжение этой темы сегодня заглянем под капот происхождения данных в Apache Spark с помощью агента Spline и других способов. Трудности data lineage в Apache Spark Когда конвейер данных выходит из строя, дата-инженеру нужно скорее...

23Июн
2022

Что такое наблюдаемость данных и как ее обеспечить

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DataOps Примеру курсы кейсы обучение, цифровизация примеру курсы кейсы обучение, цифровая трансформация управление данными примеры ркурсы обучение, большие данные для руководителей, наблюдаемость данных, обучение дата-инженеров курсы, дата-инженер курсы обучениеи, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, почему наблюдаемость данных так важная для проектов Big Data, какие компоненты обеспечивают ценную информацию о качестве и надежности данных, чем это похоже на DataOps, а также как эти идеи реализовать на практике с использованием популярных инструментов современной дата-инженерии. Почему важна наблюдаемость данных Цифровизация предполагает управление на основе качественных...

22Июн
2022

Мониторинг приложений Apache Flink: метрики и инструменты

Автор Анна Вичуговав категории Flink, Блог

Специально для обучения разработчиков распределенных приложений и дата-инженеров масштабных платформ аналитики больших данных на Apache Flink, рассмотрим наиболее важные системные показатели, а также инструменты мониторинга этих метрик. Мониторинг Flink-приложений: особенности и метрики В общем случае мониторинг приложений гарантирует, что ПО обрабатывает данные и выполняет запрошенные действия ожидаемым образом. Непрерывное отслеживание...

21Июн
2022

7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez

Автор Анна Вичуговав категории Hive, Блог

Spark vs Tez, обучение инженеров и аналитиков больших данных Apache Tez Hive Hadoop SQL, Apache Hive Hadoop SQL курсы обучение, курсы Hadoop NoSQL обучение Hive, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Для обучения дата-инженеров и аналитиков данных, сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez. Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять. 3 движка выполнения запросов в Apache Hive Напомним,...

20Июн
2022

Greenplum 6.21.0: новые фичи и исправления ошибок

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Arenadata DB курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

10 июня 2022 года вышел свежий релиз популярной MPP-СУБД. Разбираемся с улучшениями функциональных возможностей и решенными проблемами в Greenplum версии 6.21.0. Самое важное для администратора кластера и дата-инженера. 4 новых модуля свежего релиза В Greenplum 6.21.0 теперь поддерживается команда SET TRANSACTION SNAPSHOT, которая устанавливает характеристики текущей транзакции, не влияя на...

19Июн
2022

Управляемые повторы отправки сообщений из Apache Kafka c фреймворком Sping

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams примеры курсы обучение, Kafka Streams Spring, администрирование Kafka, Kafka администратор примеры курсы обучение, Apache Kafka для разработчика и дата-инженера примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения разработчиков распределенных приложений и дата-инженеров, рассмотрим практический пример использования возможностей фреймворка Spring для управления повторными попытками отправки сообщений потребителям из топика Apache Kafka. Повторные попытки отправки сообщений и Spring для Apache Kafka Довольно часто Kafka-приложения требуют высокой надежности обработки сообщений. Например, в финтех- или медтех-проектах, а также...

18Июн
2022

Потоки и пакеты: сходства, отличия и примеры применения

Автор Анна Вичуговав категории Блог

курсы Kafka Spark Flink, Архитектура данных Лямбда Каппа курсы примеры обучение, архитектор Big Data курсы примеры обучение, потоковая пакетная парадигма обработки данных примеры кейсы курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим 2 основные категории технологий обработки данных: пакетную и потоковую. Что общего между batch и stream processing, где они применяются, какими технологиями поддерживаются, можно ли их использовать вместе и как это сделать: ликбез по архитектуре больших данных. Потоковая и пакетная обработка: краткий обзор с примерами Обработки данных в режиме...