Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

15Июн
2024

Потоковая агрегация событий из Apache Kafka в RisingWave

Автор Анна Вичуговав категории Kafka, NoSql

архитектура распределенных систем паттерны примеры курсы обучение, архитектор Big Data, Kafka курсы примеры обучение, NoSQL обучение примеры курсы, архитектура данных с Kafka, проектирование потокового конвейера примеры курсы обучение, интеграция Kafka и Redis, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Практическая демонстрация потоковой агрегации событий пользовательского поведений из Apache Kafka с записью результатов в Redis на платформе RisingWave: примеры Python-кода и конвейера из SQL-инструкций. Постановка задачи Одной из ярких тенденций в современном стеке Big Data сегодня стали платформы данных, которые позволяют интегрировать разные системы между собой, поддерживая как пакетную, так...

14Июн
2024

Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает

Автор Анна Вичуговав категории Статьи

архитектор Big Data, архитектора DataLake курсы примеры обучение, NoSQL обучение примеры курсы, архитектура данных DWH Data Lake LakeHouse, обучение системных аналитиков и архитекторов DWH, Школа Больших Данных Учебный Центр Коммерсант

Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее...

13Июн
2024

Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи

Автор Анна Вичуговав категории Kafka

Проклятье CAP-теоремы: проблема целостности данных в распределенной системе и варианты ее решения. 3 шаблона проектирования микросервисной EDA-архитектуры на Apache Kafka: transactional outbox, Event Sourcing и listen to yourself. Что такое проблема двойной записи в распределенных гетерогенных системах Согласно CAP-теореме, распределенная система в любой момент времени обеспечивает выполнение только 2-х требований...

11Июн
2024

Мониторинг NiFi-приложения внешними средствами через задачи отчетности

Автор Анна Вичуговав категории NiFi

администрирование Apache NiFi, Apache NiFi для инженера данных и администратора, эксплуатация Apache NiFi, задачи отчетности мониторинг Apache NiFi, курсы дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и системные метрики экземпляра NiFi-приложения, а также JVM. Обзор Reporting Tasks в Apache NiFi 2.0. Задачи отчетности в Apache NiFi Чтобы отслеживать события и метрики работающего экземпляра приложения Apache NiFi, этот фреймворк предоставляет специализированные инструменты, которые...

07Июн
2024

Изоляция транзакций в Apache Kafka при потреблении сообщений

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, инженерия данных с Kafka, транзакции Kafka, публикация Kafka пример, Школа Больших Данных Учебный Центр Коммерсант

Как Apache Kafka реализует требование к изоляции потребления сообщений, опубликованных транзакционно, и где это настроить в клиентских API, зачем отслеживать LSO, для чего прерывать транзакцию, и какими методами это обеспечивается в библиотеке confluent_kafka. Транзакционое потребление: изоляция чтения сообщений в Apache Kafka При том, что Apache Kafka не является базой данных,...

06Июн
2024

Контекст в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

использование Apache AirFlow, курсы Apache AirFlow для дата-инженера, Apache AirFlow, инженерия данных примеры курсы обучение, ETL с Apache AirFlow, AirFlow для разработчика, Школа Больших Данных Учебный Центр Коммерсант

Для чего нужен контекст задачи Apache AirFlow, что он собой представляет, какие включает объекты, как получить к ним доступ и чем они полезны дата-инженеру. Что такое контекст задачи Apache AirFlow В разработке ПО контекстом называется среда, в которой существует объект. Это понятие очень важно при использовании специализированных фреймворков. Например, в...

05Июн
2024

Планы выполнения запросов при работе с API pandas в Apache Spark

Автор Анна Вичуговав категории Spark

обучение Spark, PySpark Spark Pandas, pandas-on-spark примеры курсы обучение, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта. API pandas и физический план выполнения запроса в Apache Spark Мы уже писали, что PySpark, API-интерфейс...

04Июн
2024

Транзакции в Apache Kafka: атомарность публикации сообщений

Автор Анна Вичуговав категории Kafka

Как Apache Kafka реализует требование к атомарности транзакций с помощью координатора и журнала транзакций: принцип Atomic в ACID и его иллюстрация на UML-диаграмме последовательности публикации сообщений в раздел топика. Транзакционная публикация сообщений в Apache Kafka Хотя Apache Kafka не является базой данных, эта платформа потоковой передачи событий все же хранит...

03Июн
2024

5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру

Автор Анна Вичуговав категории AirFlow

администрирование и использование Apache AirFlow, курсы Apache AirFlow для дата-инженера, Apache AirFlow, инженерия данных примеры курсы обучение, ETL с Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормозит база данных метаданных, как исправить проблемы с файлом DAG, лог-файлами и внешними ресурсами: разбираемся с ошибками пакетного оркестратора и способами их решения. Проблемы с планировщиком Хотя Apache AirFlow позиционируется как довольно простой фреймворк для оркестрации пакетных процессов с...

29Май
2024

Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?

Автор Анна Вичуговав категории ClickHouse

тонкости ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, ClickHouse примеры запросов, Школа Больших Данных Учебный Центр Коммерсант

Что такое модификатор FINAL в SELECT-запросе ClickHouse, с какими табличными движками он работает, почему снижает производительность и как этого избежать. Тонкости потокового выполнения SQL-запросов в колоночной СУБД. Зачем в SELECT-запросе ClickHouse нужен модификатор FINAL? Хотя SQL-запросы в ClickHouse имеют типовую структуру, их реализация зависит от используемого движка таблиц. Например, запрос...

10Май
2024

Задержка интеграции ClickHouse с Apache Kafka и как ее снизить

Автор Анна Вичуговав категории ClickHouse, Kafka

Kafka курсы примеры обучение, ClickHouse обучение примеры курсы, аналитика данных с ClickHouse и Kafka, использование ClickHouse, интеграция ClickHouse, Kafka ClickHouse интеграция пример, Школа Больших Данных Учебный Центр Коммерсант

От чего зависит задержка передачи данных из Apache Kafka в ClickHouse, как ее определить и ускорить интеграцию брокера сообщений с колоночной СУБД: настройки и лучшие практики. Интеграция ClickHouse с Kafka Чтобы связать ClickHouse с внешними системами, в этой колоночной СУБД есть специальные механизмы – интеграционные движки таблиц. Например, для взаимодействия...

22Апр
2024

Внешние и сторонние таблицы Greenplum: external vs foreign

Автор Анна Вичуговав категории Greenplum

Greenplum внешние и сторонние таблицы примеры курсы обучение, Greenplum для разработчика и дата-инженера, Greenplum примеры курсы обучение архитектура DWH, Школа Больших Данных Учебный Центр Коммерсант

Чем внешняя таблица Greenplum отличается от сторонней, и как они преобразуются друг в друга: организация доступа к данным вне базы, FDW-обертки и протоколы для интеграции MPP-СУБД с другими источниками информации. Сторонняя таблица в Greenplum Термины внешняя (external) и сторонняя (foreign) table похожи, но нюансы их использования в Greenplum отличаются. Такие...

29Мар
2024

Как масштабировать ClickHouse: тонкости шардирования

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, администрирование ClickHouse, использование ClickHouse, шардирование ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как повысить производительность ClickHouse с помощью горизонтального масштабирования, разделив данные на шарды: принципы шардирования, стратегии выбора ключа, особенности работы с distributed-таблицами и настройки конфигураций сервера. Шардирование в ClickHouse Именно хранилище данных всегда является узким местом любой системы. Поэтому именно его надо расширить для повышения производительности. Это можно сделать с помощью...

27Мар
2024

Хранение состояний в Apache Spark Structured Streaming и новый State Reader API от Databricks

Автор Анна Вичуговав категории Spark

обучение Spark, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Где хранятся состояния операторов в stateful-приложениях Apache Spark Structured Streaming, зачем разработчику нужны данные о состояниях, как их получить и чем для этого полезен новый API State Reader от Databricks. Хранение состояние в Apache Spark Structured Streaming В феврале 2024 года компания Databricks выпустила очередную версию Databricks Runtime – среду...

23Мар
2024

Проектирование raw-слоя DWH для последующего преобразования в Data Vault

Автор Анна Вичуговав категории AirFlow, Greenplum

DWH Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как определить структуру Raw-слоя корпоративного хранилища данных: пример проектирования и DDL-скрипт для кейса электронной коммерции, выбор компонентов решения для архитектуры данных. Постановка задачи: анализ систем-источников Сегодня корпоративные хранилища данных (DWH, Data Warehouse) обычно реализуются в виде нескольких баз данных, связанных ETL-процессами. Причем каждая из этих гомогенных или гетерогенных, т.е. на...

21Мар
2024

5 шагов проектирования DWH с подходом Data Vault: практический пример

Автор Анна Вичуговав категории Greenplum

Data Vault Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как построить хранилище данных с подходом Data Vault: пример проектирования схемы данных и разработка DDL-скрипта для Transformed-слоя DWH интернет-магазина. Слоистая структура DWH и подход Data Vault Корпоративное хранилище данных (DWH, Data Warehouse) часто бывает гетерогенным, т.к. организованным с помощью нескольких баз данных, связанных ETL-процессами. Согласно концепции слоистой архитектуры (LSA, Layered...

20Мар
2024

Состояние гонки в ETL-конвейерах: как дата-инженеру избежать коллизий данных

Автор Анна Вичуговав категории AirFlow

управление конвейерами обработки данных, дата-инженерия, курсы для дата-инженеров, инженер Big Data, Школа Больших Данных

Что такое гонка данных, почему она опасна в ETL-заданиях и как ее избежать: зачем разделять задания репликации в RAW-слой хранилища от их преобразования и сохранения в Transformed-слое DWH перед созданием витрин данных для BI-приложений. Что такое гонка данных в дата-инженерии Одна из главных особенностей распределенных систем – это задержка между...

18Мар
2024

Новые службы контроллера и процессоры в Apache NiFi 2.0.0-M2

Автор Анна Вичуговав категории NiFi

Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, новинки Apache NiFi 2.0, Школа больших Данных Учебный центр Коммерсант

29 января 2024 года вышла очередная веха 2-ой версии Apache NiFi, которая включает ряд новых функций и существенных обновлений зависимостей, а также несколько критических изменений. Рассмотрим самые интересные из них. Новые процессоры Apache NiFi 2.0.0-M2 С точки зрения управления версиями, веха рассматривается как некоторое значимое обновление, контрольная точка, меняющая дальнейшее...

14Мар
2024

Оптимизация запросов Cypher к графовой базе данных Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql

Почему тормозит Cypher-запрос к Neo4j, как его отладить и чем оператор PROFILE отличается от EXPLAIN. Краткий ликбез с примерами выполнения запросов к графовой базе данных для аналитиков и разработчиков. Как выполняются Cypher-запросы в Neo4j Любой дата-аналитик и разработчик, работающий с базами данных, знает, что одной из самых частых причин медленного...

12Мар
2024

3 главных проблемы проектирования современной архитектуры данных

Автор Анна Вичуговав категории NoSql

Streaming архитектура инженерия данных, потоковая обработка больших данных, потоковые и пакетные конвейеры обработки данных, потоки Big Data примеры курсы обучение, обучение дата-инженеров и архитекторов данных, курсы инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

От оркестрации и синхронизации конвейеров обработки данных до управления хранилищами, включая хранение состояний для stateful-приложений: сложности проектирования архитектуры потоковой обработки событий и способы их решения. Основные сложности проектирования современной архитектуры данных Из-за принципиальных отличий потоковой парадигмы обработки данных от пакетной, что разбиралось здесь, задача проектирования дата-конвейеров сильно усложняется, т.к. редко...