Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

29Мар
2023

4 главных настройки процессора Apache NiFi в GUI: параметры конфигурации

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache NiFi Для дата-инженеров еще более полезными, сегодня поговорим про настройку процессоров. Читайте далее, как распараллелить задачи и потоки, задержать FlowFile, задать обратное давление и настроить другие полезные конфигурации. Как настроить конфигурации процессора Apache NiFi Будучи мощным инструментом дата-инженерии, Apache NiFi содержит множество обработчиков –...

25Мар
2023

Оптимизация планирования заданий Spark с backfill-операциями

Автор Анна Вичуговав категории Spark, Блог

backfill Spark job инженерия данных, администрирование кластера Apache Spark курсы обучение, Apache Spark дата-инженер, курсы Apache Spark , управление заданиями Apache Spark, инженерия данных примеры курсы обучение Apache Spark, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое backfill-операции в конвейерах заданий Apache Spark, чем они отличаются от исторического заполнения датасетов, зачем их автоматизировать и как это сделать. Что такое backfilling для заданий Apache Spark Мы уже писали про понятие backfill на примере модификации DAG при добавлении новых заданий в конвейер Apache AirFlow. Эта функция полезна,...

20Мар
2023

Графовая аналитика в Greenplum и PostgreSQL: обзор расширений и возможностей

Автор Анна Вичуговав категории Greenplum, Блог

графовые алгоритмы на больших данных в Greenplum примеры курсы обучение, Greenplum графы примеры курсы обучение, обработка графовых данных в Greenplum и PostgreSQL графы, обучение Greenplum Madlib, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, Greenplum MADlib Data Science, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Инструменты графовых алгоритмов для аналитики больших данных в PostgreSQL и Greenplum: обзор расширений и возможностей. Знакомимся с Apache AGE и MADlib. Графовая аналитика в PostgreSQL Реляционные СУБД отлично подходят для хранения данных с четкой структурой практически в любой предметной области и предлагают широкие возможности аналитической обработки таких данных. Но иногда реляционная...

18Мар
2023

Где лучше запустить Flink-приложение: Kubernetes vs AWS EMR

Автор Анна Вичуговав категории Flink, Блог

развертывание Flink Kubernetes AWS EMR, Apache Flink Kubernetes Amazon, Apache Flink DevOps Kubernetes, Flink Kubernetes, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, как можно развернуть контейнерные приложения Apache Flink для обработки больших объемов данных в реальном времени. В продолжение этой темы сегодня сравним развертывание Flink-заданий в Kubernetes и в кластере AWS EMR. Flink-приложение в Kubernetes: преимущества и недостатки Apache Flink — это мощный фреймворк с открытым исходным кодом для...

14Мар
2023

Метрики приложений Kafka Streams и средства их мониторинга

Автор Анна Вичуговав категории Kafka, Блог

мониторинг приложения Apache Kafka Streams примеры инструментов, обучение Kafka Streams, курсы Apache Kafka Streams, Kafka Streams отладка и разработка приложений курсы, мониторинг приложений Kafka, метрики Kafka Streams, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как использовать один и тот же топик Kafka для источника и назначения данных, обеспечивая высокую пропускную способность и низкую задержку приложений Kafka Streams. А также рассмотрим, какие встроенные метрики приложений есть у Kafka Streams, как добавить свои собственные и с помощью каких инструментов их отслеживать в реальном времени. Топики и...

10Мар
2023

Обработка геоданных в Greenplum с PostGIS

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum PostGIS примеры курсы обучение, обработка геопространственных данных в Greenplum и PostgreSQL PostGIS, обучение Greenplum PostGIS, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков ГИС-систем, Greenplum PostGIS геоинформационные системы, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Сегодня познакомимся с расширением PostGIS, которое позволяет PostgreSQL и Greenplum обрабатывать пространственные данные в геолокационных и логистических задачах. Как оно устроено и каковы ограничения его практического использования в MPP-СУБД. Что такое PostGIS и как это работает Как и PostgreSQL, Greenplum поддерживает геометрические типы данных, с помощью которых можно строить статичные...

05Мар
2023

Бесплатный помощник по настройке приложений Apache Spark от Joom

Автор Анна Вичуговав категории Spark, Блог

мониторинг и оптимизация Spark-приложений примеры курсы обучение инструменты, отладка производительности Apache Spark, Spark GUI, Spark SQL для разработчиков и дата-инженеров, проблемы Spark-приложений и методы их решения, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров и разработчиков распределенных приложений еще более полезными, сегодня мы расскажем про новый бесплатный сервис от маркетплейса Joom для поиска проблем с производительностью Spark-заданий. Разбираемся, как он работает и чем полезен дата-инженеру. 4 главных проблемы Spark-приложений, их последствия и трудности обнаружения Если количество Spark-приложений невелико,...

04Мар
2023

Перебалансировка потребителей в Apache Kafka: чем она чревата и как с этим быть

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, перебалансировка потребителей Kafka примеры курсы обучение, дата-инженер Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Для параллельной обработки сообщений из своих топиков Kafka использует механизм группы приложений-потребителей, о чем мы писали здесь. Читайте далее, что происходит при изменении состава группы потребителей, чем опасна частая перебалансировка и как ее избежать. Что такое перебалансировка потребителей и почему она случается? Выполняя роль интеграционного звена между приложениями-продюсерами и приложениями-потребителями...

28Фев
2023

Распределенные транзакции в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum распределенные транзакции уровни изоляции ACID, архитектура данных, ACID в распределенных транзакциях, Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про трудности реализации ACID-требований к транзакциям в распределенных базах данных и способах их решения. Сегодня рассмотрим, как это работает в Greenplum с Arenadata DB: уровни изоляции, идентификаторы транзакций, моментальные снимки и MVCC-модель управления параллелизмом. Как GP и Arenadata DB реализуют распределенные транзакции Будучи основанной на PostgreSQL, Greenplum...

21Фев
2023

Доступность vs надежность: выборы лидера в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka выборы лидера, Apache Kafka репликация администрирование кластера примеры курсы обучение, отказоустойчивость и надежность Kafka, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как внутренние механизмы Apache Kafka обеспечивают отказоустойчивость это потоковой платформы передачи событий, а также разберем, почему до сих пор приходится выбирать между доступностью и надежностью. Выборы нового лидера при сбое прежнего и ожидание подтверждений об успешной репликации. Поиск компромисса между надежностью и доступностью в Apache Kafka Для обеспечения...

17Фев
2023

Безопасность данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase администратор списки доступа привилегии права примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня в рамках обучения администраторов SQL-on-Hadoop рассмотрим, как защитить данные в кластере Apache HBase от несанкционированного доступа. Аутентификация и авторизация пользователей, операторы управления доступом к таблицам, метки видимости и шифрование данных. Механизмы защиты данных в Apache HBase Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает...

15Фев
2023

Еще больше больших данных: масштабирование кластера Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

горизонтальное масштабирование кластера Greenplum, администрирование кластера Greenplum, обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Какие подходы позволяют увеличить емкость СУБД, чтобы повысить объем хранящихся в ней данных и ускорить вычисления. Разбираем тонкости масштабирования распределенной базы данных с массово-параллельной обработкой Greenplum: действия администратора по добавлению новых узлов в кластер. Как увеличить емкость базы данных: 4 подхода к масштабированию Чтобы увеличить емкость СУБД, т.е. объем хранимых...

11Фев
2023

Как KRaft влияет на скорость работы и хранение данных в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

KRaft Zookeeper Kafka , Apache Kafka KRaft vs Zookeeper обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали об изменении статуса и улучшении протокола KRaft в Apache Kafka 3.3. Сегодня погрузимся в эту тему чуть глубже и рассмотрим, как отказ от Zookeeper влияет на количество разделов и возможность одного и того же кластера Kafka с одним набором топиков обслуживать разные типы приложений в различных бизнес-сценариях....

07Фев
2023

Горячие точки в Apache HBase и 7 способов их устранения

Автор Анна Вичуговав категории HBase, Блог

курсы HBase дата-инженер регионы таблиц ключ строки примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое горячие точки в Apache HBase, почему они возникают, чем опасны и как их избежать. Для этого заглянем под капот NoSQL-хранилища, чтобы разобраться с особенностями хранения данных по ключу строки. Что такое горячие точки в кластере Apache HBase и почему они случаются Apache HBase представляет собой колоночно-ориентированное мультиверсионное хранилище...

01Фев
2023

Apache Kafka 3.3.2: краткий обзор январского релиза 2023

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka 3.3.2 обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

23 января 2023 года вышел очередной релиз самой популярной платформы потоковой передачи событий. Разбираемся с новинками Apache Kafka 3.3.2: готовность протокола KRaft, новый API для метрик, разделитель по умолчанию для записей без ключа, исправления и улучшения, важные для дата-инженера и администратора кластера. Apache Kafka 3.3.2: главные новинки и изменения Минорный...

28Янв
2023

Кластеризация AO/CO-таблиц в Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

кластеризация и индексация таблиц в Greenplum и PostgreSQL, кластеризованные таблицы Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что означает кластеризация таблиц в PostgreSQL, как это связано с индексацией и очисткой данных, чем полезно применение команды CLUSTER для AO/CO-таблиц в Greenplum 7, а также какой SQL-запрос поможет найти все кластеризованные таблицы в текущей базе данных. Как работает кластеризация таблиц в PostgreSQL Будучи основанной на объектно-реляционной базе данных PostgreSQL,...

26Янв
2023

Управление хранением данных в Apache Kafka: 5 главных конфигураций

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Политики хранения, сжатия и очистки данных в топиках Apache Kafka: какие конфигурации нужно настроить, чтобы работать с файлами распределенных логов наиболее эффективно. Ликбез для администратора кластера Kafka и дата-инженера. Хранение данных в Apache Kafka Мы уже писали, что топик в Apache Kafka представляет собой не физическое, а логическое хранение данных....

18Янв
2023

Управление памятью в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как оптимизировать потребление памяти в приложениях Apache Flink, разобрав основные принципы работы и конфигурации настройки памяти этого вычислительного фреймворка. А также перечислим типовые ошибки, с которыми дата-инженер может столкнуться при разработке и эксплуатации Flink-приложений Компоненты памяти в Apache Flink Apache Flink обеспечивает эффективные рабочие нагрузки поверх JVM, строго...

16Янв
2023

Сборка мусора и очистка таблиц в Greenplum с командой VACUUM

Автор Анна Вичуговав категории Greenplum, Блог

очистка таблиц базы данных Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, VACCUM Greenplum PostgreSQL примеры курсы обучение, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое SQL-оператор VACUUM, зачем эта команда нужна в Greenplum и как она работает. Разбираемся с таблицами системного каталога и тонкостями ускорения SQL-запросов в самой популярной MPP-СУБД. Что такое сборка мусора в Greenplum и PostgreSQL Напомним, в объектно-реляционной базе данных PostgreSQL, на которой основана MPP-СУБД Greenplum, о чем мы писали...

07Янв
2023

Greenplum 7: краткий обзор бета-релиза

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum 7 бета-релиз новинки обзор примеры курсы обучение, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про некоторые новинки свежего релиза Greenplum 7 здесь и здесь. Разбираемся, что еще полезного появилось в бета-версии, выпущенной 15 декабря 2022 года. А также рассмотрим, каковы ограничения этого выпуска и почему его пока нельзя использовать в production. Новые функции PostgreSQL Помимо возможности применения команды ALTER TABLE к...