Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

06Июл
2023

Spark Connect в релизе 3.4: новые возможности для разработчика

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, Spark Connect, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что в выпуске 3.4.0 от апреля 2023 года Spark Connect представил несвязанную архитектуру клиент-сервер, которая обеспечивает удаленное подключение к кластерам Spark из любого приложения, работающего в любом месте. Сегодня рассмотрим подробнее, как это работает и каковы плюсы для практического использования. Что такое Spark Connect и зачем это...

05Июл
2023

Как работает протокол Site-to-Site в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi администратор кластера дата-инженерия примеры курсы обучение, Apache NiFi S2S Site-to-Site протокол настройка курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Будучи распределенным ETL/ELT-инструментом потоковой передачи данных, Apache NiFi имеет соответствующие средства, которые обеспечивают взаимодействия между разными узлами кластера. Одним из них является протокол Site-to-Site (S2S), с которым мы познакомимся далее. Что такое протокол S2S При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, наиболее предпочтительным...

04Июл
2023

Apache CarbonData: еще один колоночный формат для больших данных

Автор Анна Вичуговав категории Блог, Статьи

архитектура больших данных форматы Big Data, CarbonData курсы обучение разработчиков Apache Spark, CarbonData анализ данных с Apache Spark, обучение большим данным, курсы Big Data для разработчиков, CarbonData Spark, Школа Больших Данных Учебный центр Коммерсант

Формат данных в озере или гибридном хранилище типа Data LakeHouse сильно влияет на скорость выполнения аналитических запросов. Сегодня рассмотрим, как Apache CarbonData делает аналитику больших данных в реальном времени еще быстрее. Что такое Apache CarbonData Традиционные форматы данных, часто используемые в проектах Big Data, такие как CSV и AVRO, имеют...

03Июл
2023

Как запустить Apache AirFlow в Google Colab с ngrok

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как запустить Apache AirFlow на мощностях Google в интерактивной среде Colab и войти в веб-GUI этого фреймворка, создав туннель локального хоста на публичный URL с помощью утилиты ngrok. Запуск Apache AirFlow в Google Colab Хотя Google Colab является мощным облачным окружением для запуска и написания Python-кода, выполнение написанных...

02Июл
2023

Обработка ошибок в потребителе Kafka с try-except: пример

Автор Анна Вичуговав категории Kafka, Блог

потребитель Kafka обработка исключений примеры курсы обучение, DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Самый простой способ организовать обработку и логирование ошибок в приложении-потребителе, чтобы продолжать считывание из Apache Kafka, даже если продюсер изменил структуру полезной нагрузки сообщения. Публикация данных в Kafka Напомним, Apache Kafka, в отличие от RabbitMQ, не позволяет организовать очередь недоставленных сообщений (DLQ, Dead Letter Queue) средствами самой платформы, о чем мы...

01Июл
2023

Гибридный режим пакетных shuffle-операций в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink shuffle operations, обучение Apache Flink разработка приложений, Flink shuffle opeartions, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Что не так с планированием задач shuffle-операций, какие проблемы пакетной обработки данных устраняет введение гибридной перетасовки в Apache Flink 1.16 и как работает этот режим Hybrid Shuffle. Что такое режим гибридного перемешивания в Apache Flink В версии Apache Flink 1.16, о которой мы писали здесь, был впервые представлен режим гибридной...