Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

01Сен
2023

Параллельное восстановление таблицы из резервной копии базы в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

DDL разделы таблиц Greenplum 7, администрирование Greenplum бэкапы восстановление, партиционирование таблиц Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Почему в Greenplum 7 восстановление данных из резервной копии базы стало медленнее и как разработчики это исправили: причины замедления и способы их устранения. SQL-синтаксис и восстановление из бэкапа Напомним, 7-ой релиз Greenplum имеет много интересных и полезных функций, включая возможность определять партиционированную таблицу без определения дочерних разделов и изменять таблицы...

28Авг
2023

Зачем переходить на Apache NiFi 1.23.2: критичная ошибка и ее устранение

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi дата-инженерия администрирование примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Apache NiFi 1.23.1, выпущенный 18.08.2023. Однако, использовать его не следует, также как и предыдущий релиз этой линейки. Разбираемся, почему тем, кто перешел на NiFi 1.23, нужно срочно обновиться до версии 1.23.2 от 22 августа 2023 года. Что не так с Apache NiFi 1.23 и как это...

22Авг
2023

Квотирование в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Квотирование клиентских запросов в Kafka, продюсеры и потребители Kafka, Kafka управление ресурсами брокера, курсы Apache Kafka для дата-инженера разработчика и администратора кластера, Apache Kafka Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое квоты в Apache Kafka и как этот механизм позволяет управлять ресурсами брокера, предупреждая DDOS-атаки от слишком активных потребителей и продюсеров. Разбираемся с типами клиентских квот, их конфигурациями и принципами работы. Квоты клиента и пользователя в Apache Kafka Чтобы управлять ресурсами брокера, кластер Kafka может применять квоты на запросы...

18Авг
2023

Apache AirFlow 2.7: обзор августовского релиза

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow для дата-инженера и администратора кластера, администрирование Airflow , Airflow 2.7 обзор, новинки Apache Airflow, Apache Airflow DAG GUI, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

14 августа 2023 года вышел очередной релиз Apache AirFlow . Разбираем его самые главные новые возможности, улучшения и исправления ошибок: отказ от Python 3.7, задачи установки/демонтажа, встроенная поддержка спецификации OpenLineage, обновления интерфейса, упрощение управления сложными зависимостями и другие фичи Apache AirFlow 2.7. Задачи установки/демонтажа Apache AirFlow 2.7 содержит более 35...

12Авг
2023

Как организовать мониторинг системных метрик Greenplum: подходы и инструменты

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum администрирование и мониторинг, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, какие системные метрики Greenplum необходимо отслеживать администратору кластера и дата-инженеру для оценки работоспособности и эффективности этой СУБД, а также с помощью каких инструментов это сделать. Мониторинг средствами Greenplum Прежде всего, стоит отметить, что контролировать Greenplum можно с помощью различных инструментов, включенных в систему или доступных в качестве надстроек....

07Авг
2023

Многоуровневое хранилище в Apache Kafka: разбираемся с KIP-405

Автор Анна Вичуговав категории Kafka, Блог

многоуровневое хранилище Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka хранение данных, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой очередное предложение по улучшению проекта Apache Kafka, которое расширяет возможности этой распределенной платформы потоковой передачи событий, превращая ее в средство долговременного хранения данных. Надежность vs скорость: вечный компромисс в Apache Kafka Изначально Apache Kafka позиционировалась как middleware, т.е. сервисный слой для асинхронной интеграции нескольких информационных систем. Этот...

02Авг
2023

Изменение таблиц в Greenplum 7 без их перезаписи

Автор Анна Вичуговав категории Greenplum, Блог

изменение таблиц Greenplum 7, Greenplum курсы, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Какие команды изменения таблиц добавлены в 7-ю версию Greenplum и чем они полезны дата-инженеру. Разбираемся с новыми функциями: как добавить столбец, изменить его тип, кодировку хранения и перезаписать несколько таблиц одной командой. Добавление столбца О новых функциях работы с партиционированаными таблицами в Greenplum 7 мы уже писали. В частности, Greenplum...

31Июл
2023

Как устроен кластер Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Что такое кластеризация с нулевым лидером, чем координатор отличается от основного узла, каким образом устроен механизм выбора лидера, зачем нужна изоляция процессоров и как ее реализовать, а также другие особенности кластера Apache NiFi. Ключевые компоненты кластера Apache NiFi Хотя Apache NiFi можно запустить на локальной машине, чтобы он выполнялся как...

13Июл
2023

Что такое BioCypher: возможности Neo4j для биомедицины

Автор Анна Вичуговав категории Machine Learning, Neo4j, NoSql, Блог

Data Science биомедицины Neo4j BioCypher Biolink, графовые базы данных СУБД NoSQL в биомедицине примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j, обучение NoSQL Neo4j курсы, NoSQL Neo4j для инженеров данных и и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL Neo4j, Школа Больших Данных Учебный центр Коммерсант

Зачем биомедикам понадобился свой язык описания онтологий, как эти задачи решает BioCypher и при чем здесь Neo4j: практическое приложение Data Science и графовых алгоритмов в биомедицинской сфере. Что такое BioCypher Графовые алгоритмы активно применяются в биомедицине для анализа различных биологических данных, таких как геномные, протеомные, данные о белковых взаимодействиях и...

07Июл
2023

Расширение возможностей Greenplum с фоновыми рабочими процессами и GPPC API

Автор Анна Вичуговав категории Greenplum, Блог

расширения Greenplum GPPC API фоновые рабочие процессы, администрирование кластера Greenplum , администратор Greenplum , Greenplum для инженера данных и разработчика, UDF Greenplum примеры курсы обучение, Школа Больших данных Учебный Центр Коммерсант

Как расширить возможности MPP-СУБД Greenplum, используя фоновые рабочие процессы и почему это небезопасно. А также рассмотрим, что такое API Greenplum Partner Connector и как это использовать. Фоновые рабочие процессы Обычно фоновыми процессами в СУБД называются системные задания, которые запускаются при запуске базы данных и выполняют различные служебные задачи. К таким рутинным сервисным задачам...

30Июн
2023

Под капотом Neo4j: изоляция транзакций и составные базы данных

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j, обучение NoSQL Neo4j курсы, NoSQL Neo4j для инженеров данных и и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL Neo4j, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем внутрь Neo4j, чтобы разобраться с базовыми концепциями этой графовой базы данных. Какие уровни изоляции транзакций поддерживаются в Neo4j, почему одна установка по умолчанию содержит две базы данных, что такое составная БД и как с этим работать. Транзакции в Neo4j Neo4j — это популярная нативная графовая СУБД, способная управлять...

17Июн
2023

JIT-компиляция SQL-запросов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum JIT, обучение аналитиков и дата-инженеров и аналитиков больших данных, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы SQL-запросы выполнялись быстрее, в Greenplum, как и в PostgreSQL, поддерживается JIT-компиляция. Читайте далее, что это такое и всегда ли эта динамическая генерация машинного кода на лету дает выигрыш в скорости для аналитики больших данных. Что такое JIT-компиляция Технология JIT-компиляции (Just-In-Time) позволяет генерировать машинный код во время выполнения программы. В...

07Июн
2023

Танцы с зеркалами или как восстановить кластер Greenplum после сбоя

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, управление кластером Greenplum, восстановление сегментов Greenplum, курсы Greenplum, обучение Greenplum, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, зеркалирование Greenplum, лучшие практики администратор Greenplam курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про механизмы обеспечения высокой доступности в кластере Greenplum. Сегодня рассмотрим, какие инструменты и приемы помогут выявить сбои координатора и сегментов, а также как администратору кластера этой MPP-СУБД восстановить ее работоспособность. Что такое зеркалирование сегментов Greenplum Напомним, кластер Greenplum представляет собой несколько экземпляров популярной объектно-реляционной базы данных (БД)...

22Май
2023

4 ошибки с DAG в интерфейсе Apache AirFlow и способы их исправления

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow отладка и мониторинг DAG, использование Apache AirFlow, лучшие практики инженерии данных Apache AirFlow, ошибки GUI DAG AirFlow, отладка и мониторинг конвейеров обработки данных Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера дата-инженер, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие ошибки, связанные с DAG, отображаются в пользовательском интерфейсе Apache AirFlow и как дата-инженеру их исправить. А также рассмотрим еще несколько рекомендаций по повышению эффективности этого фреймворка. 4 ошибки с DAG в интерфейсе Apache AirFlow и как их исправить Сегодня все больше компаний, независимо от их домена и...

15Май
2023

5 типов оповещений Apache AirFlow и их мониторинг в Healthchecks.io

Автор Анна Вичуговав категории AirFlow, Блог

callback AirFlow мониторинг DAG, обратные вызовы Apache AirFlow, мониторинг Apache AirFlow Healthchecks.io, отладка и мониторинг конвейеров обработки данных Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера дата-инженер, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров рассмотрим типы оповещений в Apache AirFlow и их отслеживание в сервисе мониторинга cron-заданий Healthchecks.io. Оповещения Apache AirFlow: какие они бывают и зачем их отслеживать Apache AirFlow позволяет создавать сложные конвейеры обработки данных, которые могут выполняться по расписанию, по событию или запускаться вручную. Для повышения...

06Май
2023

2 способа удалить сообщения из топика Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

как удалить сообщения из топика Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Почему в Apache Kafka нет функций очистки топика и как же все-таки удалить из него все сообщения, если очень нужно, используя конфигурации retention и другие приемы администрирования кластера. Политика очистки и конфигурации retention В отличие от брокеров сообщений, которые после отправки данных приложениям-потребителям, удаляют их из очереди, Apache Kafka хранит...

12Апр
2023

2 режима развертывания приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, развертывание Spark-приложения локально, локальный и кластерный режимы развертывания Spark-приложения, развертывание Apache Spark, курсы по Spark для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как разработчику выбрать подходящий режим развертывания для своего Spark-приложения, достоинства и недостатки клиентского и кластерного режимов, а также особенности запуска под управлением YARN. Архитектура и режимы развертывания Spark-приложения Будучи фреймворком для создания приложений быстрой обработки Big Data, Apache Spark имеет несколько режимов развертывания, которые зависят от варианта запуска Spark-приложения: на...

04Апр
2023

5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka vs RabbitMQ очередь сообщений примеры курсы обучение проблемы и решения, очереди в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков и дата-инженеров, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Какие проблемы характерны для распределенных очередей сообщений, почему они случаются и как с ними справиться. Разбираемся со сбоями, ошибками и перегрузками на примере Apache Kafka и RabbitMQ. Проблемы с распределенными очередями и главные причины их появления Хотя Apache Kafka — это целая экосистема со множеством компонентов для потоковой передачи событий,...

31Мар
2023

Лучшие практики работы с DLQ-очередями в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про очереди недоставленных сообщений в Apache Kafka и RabbitMQ. Сегодня поговорим про стратегии обработки ошибок, связанные с DLQ-очередями в Kafka, а также рассмотрим, какие сообщения НЕ надо помещать в Dead Letter Queue. 4 стратегии работы с DLQ-топиками в Apache Kafka Напомним, в Apache Kafka в очереди недоставленных...

30Мар
2023

Распределенные снапсшоты в Greenplum для производительности и надежности

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum MVCC распределенные транзакции, архитектура данных Greenplum, резервное копирование Greenplum, ACID в распределенных транзакциях Greenplum , Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Как Greenplum расширяет MVCC-модель PostgreSQL для управления доступом к данным в многопользовательской среде, обеспечивая согласованность и изоляцию транзакций для нескольких сегментов в большом кластере. Преимущества моментальных снимков перед блокировками и их польза для резервного копирования. MVCC и транзакции в Greenplum с PostgreSQL Будучи основанной на PostgreSQL, о чем мы писали здесь,...