Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

04Июн
2023

Разделенный мозг и зомби-продюсеры в Apache Kafka: как с этим бороться

Автор Анна Вичуговав категории Kafka, Блог

архитектура распределенных систем Kafka, проблема разделенного мозга в распределенных системах, архитектор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, архитектура кластера проблемы и решения курсы примеры обучение, распределенные системы больших данных с Kafka примеры курсы обучение, обучение большим данным, зомби-процессы в распределенных системах, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое «проблема разделенного мозга» в распределенных системах, почему она возникает, при чем здесь зомби-продюсеры и как с этим бороться. Разбираем на примере Apache Kafka. Проблема разделенного мозга или зомби-процессы в распределенных системах Термин зомби-процесс пришел из области операционных систем, однако, в распределенных системах его интерпретация абсолютно противоположна исходному значению....

03Июн
2023

Как на самом деле устроены графовые базы данных?

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных в Greenplum и PostgreSQL графы, обучение NoSQL Neo4j, обучение NoSQL Neo4j курсы, NoSQL Neo4j для инженеров данных и и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL Neo4j, Школа Больших Данных Учебный центр Коммерсант

Что такое безиндексная смежность и как она снижает сложность алгоритмов обхода графа, позволяя быстро и эффективно запрашивать множество узлов и отношений. Разбираемся с уникальными принципами работы графовых баз данных на примере Neo4j. Архитектура и принципы работы графовых баз данных Несмотря на стремление разработчиков современных СУБД к унификации их решений, первичная...

27Май
2023

Kafka Streams vs ksqlDB: что и когда использовать

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB Apache Kafka примеры курсы обучение, Kafka Streams vs ksqlDB сходства и отличия, чем похожи и как отличаются Kafka Streams и kSQL, Kafka Streams ksqlDB примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, чем Kafka Streams отличается от Consumer API. Сегодня рассмотрим, в чем разница между Kafka Streams и ksqlDB, а также разберем, почему использовать этот компонент экосистемы Apache Kafka не так просто. Как работает ksqlDB: практический пример Apache Kafka является полноценной экосистемой потоковой передачи, вокруг которой существует множество полезных...

24Май
2023

В помощь дата-инженеру: как организовать конвейер инкрементной загрузки данных

Автор Анна Вичуговав категории NoSql, Spark, Блог

архитектура данных, инженер данных архитектор Big Data примеры курсы обучение, инкрементный ETL, инженерия Big Data, Data Lake Delta Lake ETL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Инкрементные конвейеры загрузки больших объемов данных в корпоративное хранилище или озеро как самый экономичный способ масштабирования архитектуры данных. Разбираемся, как дата-инженеру эффективно организовать такие ETL-конвейеры. 2 способа организации конвейеров инкрементной загрузки данных Инкрементный ETL (Extract, Transform and Load) для классического DWH стал обычным явлением с источниками CDC (сбор данных об...

19Май
2023

Под капотом Kafka Connect: источники, приемники и коннекторы

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Connect для дата-инженеров и ИТ-архитекторов, обучение разработчиков курсы Apache Kafka, курсы по Kafka Connect, обучение Kafka, разработка потоковых приложений Kafka, интеграция данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим принципы работы компонента экосистемы Apache Kafka под названием Connect и разберемся, как он устроен. Программная архитектура коннекторов и способы избежать дубликатов при зависании внешней системы-приемника. Архитектура и принципы работы Kafka Connect Apache Kafka не зря считается платформой потоковой передачи, а не просто брокером сообщений. Вокруг нее выстроена целая...

17Май
2023

Материализованные представления, CQRS и CDC в микросервисной архитектуре

Автор Анна Вичуговав категории Use Cases, Блог

микросервисы в Big Data, архитектура данных, шаблоны проектирования микросервисов, архитектура микросервисов паттерны CQRS API Composition примеры применения, архитектура данных, CDC архитектура данных примеры реализации, архитектура микросервисных систем, потоковые базы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как материализованные представления в потоковой базе данных с CDC-подходом и шаблоном CQRS позволяют реализовать масштабируемую и высокопроизводительную систему с микросервисной архитектурой для транзакций и аналитики данных в реальном времени. Разбираемся с паттернами проектирования микросервисов на примере интернет-магазина. Что не так с шаблоном композиция API и другие проблемы микросервисной архитектуры в...

12Май
2023

Разделы и потребители Apache Kafka: практический пример

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Чтобы разобраться, как на самом деле работают разделы и потребители Apache Kafka, сегодня рассмотрим небольшой демонстрационный пример, иллюстрирующий потребление сообщений. Пишем Python-скрипты публикации и потребления сообщений из разных разделов топика Kafka с занесением данных в несколько вкладок Google-таблицы. Как сообщения распределяются по разделам топика Kafka Напомним, в Apache Kafka раздел...

04Май
2023

Блеск и нищета микросервисной архитектуры для платформы данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

микросервисы в Big Data, архитектура данных, архитектура платформы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем проблемы микросервисной архитектуры для платформ данных и способы их решения, а также вспомним 5 популярных шаблонов развертывания, которые могут смягчить риски от внедрения новых версий многокомпонентной системы. Проблемы микросервисной архитектуры для платформы данных и способы их решения При всех плюсах микросервисной архитектуры (автономность, гибкость, масштабируемость, простота развертывания, технологическая...

21Апр
2023

UML-диаграмма последовательности потребления сообщений из Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka примеры курсы обучение, потребление сообщений из Kafka UML sequence, Python-потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы разбирали работу приложения-продюсера и строили UML-диаграмму последовательности. Сегодня рассмотрим, какие системные вызовы происходят при потреблении сообщений из Apache Kafka, при чем здесь группы потребителей и фиксация смещений. Как работает потребитель Kafka Аналогично разработке приложения-продюсера, при написании кода потребителя, который считывает данные из топика Apache Kafka, используются методы специальных...

20Апр
2023

Под капотом продюсера Kafka: UML-диаграмма публикации сообщений

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как на самом деле работает приложение-продюсер Apache Kafka: разбираемся с конфигурациями и составляем UML-диаграмму последовательности системных вызовов при публикации сообщений в топик. Как работает продюсер Kafka Когда разработчик пишет приложение-продюсер, которое публикует сообщение в топик Apache Kafka, он использует методы специальных библиотек, таких как kafka-python и пр. Достаточно только создать...

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

11Апр
2023

Kafka Streams vs Consumer API: 4 сходства и 5 отличий

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams vs Consumer API сходства и отличия, чем похожи и как отличаются Kafka Streams и Consumer API, Kafka Streams Consumer API примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Kafka Streams и Consumer API, чем они отличаются и что выбирать для практического использования: краткое руководство для разработчика приложений потоковой обработки событий. Возможности и ограничения Kafka Streams и Consumer API Поскольку Apache Kafka как огромная экосистема со множеством компонентов для потоковой передачи событий, обилие и разнообразие этих...

07Апр
2023

7 критериев выбора потоковой базы данных

Автор Анна Вичуговав категории NoSql, Блог, Цифровая трансформация

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, СУБД NoSQL потоковая передача, NoSQL курсы примеры обучение, event streaming курсы примеры обучение, архитектура данных курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковая аналитика больших данных, какие бывают СУБД потоковой передачи, когда и зачем их использовать, а также что влияет на выбор этих инструментов хранения и аналитической обработки Big Data. Что такое потоковые базы данных и как они работают Мы уже упоминали, что аналитика данных в реальном времени может быть...

04Апр
2023

5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka vs RabbitMQ очередь сообщений примеры курсы обучение проблемы и решения, очереди в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков и дата-инженеров, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Какие проблемы характерны для распределенных очередей сообщений, почему они случаются и как с ними справиться. Разбираемся со сбоями, ошибками и перегрузками на примере Apache Kafka и RabbitMQ. Проблемы с распределенными очередями и главные причины их появления Хотя Apache Kafka — это целая экосистема со множеством компонентов для потоковой передачи событий,...

31Мар
2023

Лучшие практики работы с DLQ-очередями в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про очереди недоставленных сообщений в Apache Kafka и RabbitMQ. Сегодня поговорим про стратегии обработки ошибок, связанные с DLQ-очередями в Kafka, а также рассмотрим, какие сообщения НЕ надо помещать в Dead Letter Queue. 4 стратегии работы с DLQ-топиками в Apache Kafka Напомним, в Apache Kafka в очереди недоставленных...

27Мар
2023

Унификация пакетной и потоковой обработки в Delta-архитектуре с LakeHouse

Автор Анна Вичуговав категории NoSql, Spark, Блог

DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как Lakehouse объединяет пакетную и потоковую обработку, какие проблемы возникают при реализации этой гибридной архитектуры данных и каким образом они решаются с помощью Delta-подхода и Apache Spark Structured Streaming. Краткая история появления дельта-архитектуры от лямбда- и каппа-моделей Мир больших данных постоянно развивается: появляются новые технологии и архитектурные шаблоны. В частности,...

24Мар
2023

Очереди недоставленных сообщений в Apache Kafka и RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka RabbitMQ, очередь недоставленных сообщений в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, зачем в системах асинхронного обмена данными нужны очереди недоставленных сообщений, как их организовать и обработать. Разбираемся с Dead Letter Queue на примере Apache Kafka и RabbitMQ. Обработка недоставленных сообщений в Apache Kafka Хотя Apache Kafka и RabbitMQ не являются взаимозаменяемыми альтернативами, именно эти системы чаще всего используются для...

17Мар
2023

EDA-архитектура данных в DWH: моделирование и реализация

Автор Анна Вичуговав категории Greenplum, Блог

DWH проектирование архитектуры данных Data Lake, EDA Data Lake DWH проектирование примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем схема, применяемая к данным, при чтении отличается от схемы при записи, почему она вызывает GIGO-проблему в Data Lake, и как применить принципы функциональной дата-инженерии к архитектуре данных, управляемой событиями. Схема при чтении или при записи: главное отличие NoSQL-решений от реляционных СУБД NoSQL-решения и Apache Hadoop реализуют стратегию «схема при...

15Мар
2023

Планирование заданий Spark в EDA-архитектуре

Автор Анна Вичуговав категории Kafka, Spark, Блог

EDA event driven architecture Spark job scheduling, архитектура ПО, архитектура больших данных, Spark для разработчиков и архитекторов, Apache Spark для дата-инженеров, микросервисная архитектура EDA, Школа Больших Данных Учебный Центр Коммерсант

Как организовать эффективное планирование заданий Apache Spark в микросервисной архитектуре, управляемой событиями, с помощью паттернов Idempotent Consumer и Transactional Outbox. Проблемы оркестрации Spark-заданий shell-скриптами и переход к EDA-архитектуре При большом количестве приложений Apache Spark, которые взаимодействуют друг с другом как самостоятельные микросервисы, растет сложность управления ими. В частности, shell-скрипты позволяют...

07Мар
2023

Elasticsearch + Delta Lake: архитектура данных биотех-платформы Polly

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных дата-инженер примеры курсы обучение, курсы Delta Lake Spark NoSQL, курсы по NoSQL базы данных архитектура данных примеры курсы обучение кейсы, обучение NoSQL, курсы дата-инженер, обучение Big Data для разработчиков, NoSQL Delta Lake для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Зачем биотехнологической платформе Polly от Elucidata понадобился API SQL-запросов в облачном сервисе Elasticsearch и как дата-инженеры реализовали его, развернув Delta Lake с AWS Atnena и S3. Что не так с SQL-запросами в облачном Elasticsearch на AWS Ежедневно биотехнологическая платформа Polly от Elucidata обрабатывает гигабайты биомолекулярных данных для биологов по всему...