Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Июн
2023

Танцы с зеркалами или как восстановить кластер Greenplum после сбоя

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, управление кластером Greenplum, восстановление сегментов Greenplum, курсы Greenplum, обучение Greenplum, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, зеркалирование Greenplum, лучшие практики администратор Greenplam курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про механизмы обеспечения высокой доступности в кластере Greenplum. Сегодня рассмотрим, какие инструменты и приемы помогут выявить сбои координатора и сегментов, а также как администратору кластера этой MPP-СУБД восстановить ее работоспособность. Что такое зеркалирование сегментов Greenplum Напомним, кластер Greenplum представляет собой несколько экземпляров популярной объектно-реляционной базы данных (БД)...

06Июн
2023

Шифрование потока данных в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi OpenPGP криптография безопасность дата-инженерия примеры курсы обучение, Apache NiFi процессоры OpenPGP курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров поговорим про шифрование потока данных в Apache NiFi с помощью набора процессоров, поддерживающих спецификацию OpenPGP. Криптографическая защита целостности и конфиденциальности потока данных. Криптографические процессоры Apache NiFi Криптография является одним из наиболее распространенных методов защиты целостности и конфиденциальности данных с помощью шифрования и дешифрования. Сегодня чаще...

05Июн
2023

Из Kafka во Flink: пишем Python-приложение

Автор Анна Вичуговав категории Flink, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как написать и запустить в Google Colab свое Python-приложение считывания данных из топика Kafka с помощью коннектора FlinkKafkaConsumer из библиотеки pyflink.datastream.connectors и почему заставить его работать оказалось не так просто. Использование FlinkKafkaConsumer для доступа к Kafka из Flink приложения Недавно я показывала, как написать PyFlink-скрипт считывания данных из...

04Июн
2023

Разделенный мозг и зомби-продюсеры в Apache Kafka: как с этим бороться

Автор Анна Вичуговав категории Kafka, Блог

архитектура распределенных систем Kafka, проблема разделенного мозга в распределенных системах, архитектор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, архитектура кластера проблемы и решения курсы примеры обучение, распределенные системы больших данных с Kafka примеры курсы обучение, обучение большим данным, зомби-процессы в распределенных системах, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое «проблема разделенного мозга» в распределенных системах, почему она возникает, при чем здесь зомби-продюсеры и как с этим бороться. Разбираем на примере Apache Kafka. Проблема разделенного мозга или зомби-процессы в распределенных системах Термин зомби-процесс пришел из области операционных систем, однако, в распределенных системах его интерпретация абсолютно противоположна исходному значению....

03Июн
2023

Как на самом деле устроены графовые базы данных?

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных в Greenplum и PostgreSQL графы, обучение NoSQL Neo4j, обучение NoSQL Neo4j курсы, NoSQL Neo4j для инженеров данных и и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL Neo4j, Школа Больших Данных Учебный центр Коммерсант

Что такое безиндексная смежность и как она снижает сложность алгоритмов обхода графа, позволяя быстро и эффективно запрашивать множество узлов и отношений. Разбираемся с уникальными принципами работы графовых баз данных на примере Neo4j. Архитектура и принципы работы графовых баз данных Несмотря на стремление разработчиков современных СУБД к унификации их решений, первичная...

02Июн
2023

Как механизм AQE выполняет динамическое объединение разделов в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

динамическое объединение разделов Spark SQL, shuffle Spark SQL, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Apache Spark примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали практический пример разделения большого датафрейма Apache Spark на несколько разделов. Сегодня поговорим о том, как их объединить с помощью механизм AQE и динамической настройки конфигурации spark.sql.shuffle.partitions. Разделы и оптимизация распределенных вычислений в Spark-приложениях Распределение данных по разделам сильно влияет на скорость работы Spark-приложений. Распределенное приложение выполняется наиболее...

01Июн
2023

Трудности дата-инженерии: отличия от разработки ПО и внедрение CI/CD

Автор Анна Вичуговав категории AirFlow, Блог

конвейер обработки данных управление оркестрация примеры курсы обучение, DevOps DataOps, архитектура данных, инженер данных архитектор Big Data примеры курсы обучение, инкрементный ETL, инженерия Big Data, Data Lake Delta Lake ETL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем инженерия данных отличается от разработки ПО, как организовать оркестрацию конвейеров обработки данных и внедрить лучшие практики CI/CD. Почему дата-инженерия отличается от разработки ПО При том, что между инженерией данных и разработкой программного обеспечения (ПО) очень много общего, эти ИТ-дисциплины довольно сильно отличаются. Хотя в обоих направлениях используется облачная инфраструктура,...