Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

12Ноя
2023

Потоковая публикация данных в REST API с Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

потоковая передача данных из Delta Lake во внешний REST API со Spark Structured Streaming, foreachBatch Spark Structured Streaming, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать потоковую публикацию данных из приложения Apache Spark Structured Streaming во внешний REST API, используя метод foreachBatch(), зачем перераспределять датафрейм перед его упаковкой в полезную нагрузку HTTP-запроса, от чего зависит число вызовов, и какие приемы помогут избежать сбоев из-за ошибок. 6 шагов потоковой публикации данных в REST API с...

09Ноя
2023

Автор Анна Вичуговав категории Flink, Блог

настройка Flink конвейера, настройка Flink приложений, конвейер приложений Apache Flink, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Продолжая недавний разговор про настройку конвейеров из Flink-приложений, сегодня рассмотрим, почему важна локальность данных, как избежать узких мест в приемниках потоковых данных и чем хорош HybridSource для объединения гетерогенных источников. Обеспечьте локальность данных Хотя распределенные системы обладают большим потенциалом по сравнению с локальными, позволяя обрабатывать больше данных, вычисления не происходят...

08Ноя
2023

Apache Kafka 3.6: что нового?

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и администраторов, Apache Kafka 3.6.0 обзор релиза, Apache Kafka примеры курсы обучение, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

10 октября 2023 года вышел очередной релиз самой популярной распределенной платформы потоковой передачи событий. Знакомимся с главными новинками Apache Kafka 3.6.0: промышленная поддержка KRaft вместо ZooKeeper, оптимизация транзакций, повышение производительности памяти и другие фичи свежего релиза для разработчика, дата-инженера и администратора. ТОП-10 новинок выпуска 3.6 Apache Kafka 3.6.0 включает 6...

07Ноя
2023

Как управлять Greenplum с VMware Command Center

Автор Анна Вичуговав категории Greenplum, Блог

VMware Greenplum Command Center vs Arenadata Command Center (ADCC) для Arenadata DB, администрирование и мониторинг Greenplum Arenadata DB, настройка Greenplum и Arenadata DB, администрирование Greenplum Arenadata DB, мониторинг системных метрик и SQL-запросов в Arenadata DB и Greenplum, курсы Greenplum Arenadata DB, Greenplum для дата-инженера и администратора курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Что такое VMware Greenplum Command Center, как использовать этот инструмент для эффективного управления MPP-СУБД и чем он отличается от Arenadata Command Center для Arenadata DB. Что такое центр управления Greenplum от VMware VMware Greenplum Command Center — это инструмент управления, который отслеживает показатели производительности системы, анализирует состояние кластера и позволяет...

03Ноя
2023

Управление смещением в Apache Kafka: автофиксация и стратегия потребления

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, перебалансировка потребителей Kafka примеры курсы обучение, дата-инженер Kafka, курсы Kafka, разработчик Kafka примеры курсы обучение, Apache Kafka для разработчиков, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, управление смещениями в Kafka, Школа Больших Данных Учебный центр Коммерсант

Чем политика сброса смещения earliest отличается от latest в конфигурации auto.offset.reset, зачем устанавливать свойству enable.auto.commit значение false и чем потребитель Java отличается от клиентов на основе librdkafka (C/C++, Python, Go и C#). Конфигурации Apache Kafka для управления смещением Потребитель Apache Kafka — это клиентское приложение, которое подписывается на весь топик...

02Ноя
2023

От профилирования до загрузки классов: 3 совета по оптимизации Flink-приложений

Автор Анна Вичуговав категории Flink, Блог

Apache Flink оптимизация и отладка приложений, курсы Apache Flink разработка и развертывание примеры обучение, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Для чего разработчику Flink-приложения инструменты профилирования, и почему надо избегать сериализации Kryo и динамической загрузки классов. Используйте инструменты профилирования Разработка и отладка высоконагруженных приложений требует специальных средств, позволяющих понять причины их медленной работы и повысить производительность. Такой анализ работы приложение называется профилированием и выполняется с помощью специальных средств – инструментов...

01Ноя
2023

Еще 11 конфигураций для повышения эффективности Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, настройка Greenplum, тюнинг конфигураций и параметров Greenplum, что настроить в Greenplum, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Продолжая тему недавней статьи про настройки Greenplum 7, сегодня рассмотрим еще несколько конфигураций, которые позволят сделать эту MPP-СУБД еще быстрее и надежнее. Глобальные конфигурации Greenplum для настройки рабочих файлов Параметры глобальной конфигурации пользователя (GUC, Global User Configuration) Greenplum могут быть как глобальными, так и локальными по отношению к экземплярам сегмента. Глобальные...

31Окт
2023

Как настроить source-коннектор Kafka Connect, чтобы повысить его пропускную способность

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Connect конфигурации настройки примеры, обучение большим данным, Apache Kafka для дата-инженеров и администраторов, Школа Больших Данных Учебный Центр Коммерсант

Компоненты платформы Kafka Connect и их настройки для повышения скорости и объема данных, считываемых из внешних источников и публикуемых в топике Kafka. Разбираем на примере JDBC-коннектора для реляционной базы данных. Проблемы и возможности коннекторов Kafka Connect Kafka Connect — это инструмент интеграции данных с открытым исходным кодом, который упрощает процесс...

29Окт
2023

Кэширование в Databricks SQL

Автор Анна Вичуговав категории Блог, Статьи

Databricks SQL, DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Что такое Databricks SQL и как его ускорить, используя кэширование данных: типы хранилищ данных в платформе Lakehouse и виды кэшей. Что такое Databricks SQL Платформа Databricks Lakehouse предоставляет комплексное решение для хранения данных. Она построена на открытых стандартах и API. Эта архитектура данных сочетает ACID-транзакции и управление данными корпоративных хранилищ...

28Окт
2023

Как настроить потоковый конвейер Flink-приложений по рабочей нагрузке

Автор Анна Вичуговав категории Flink, Блог

Зачем настраивать конфигурацию конвейера Flink-приложений в зависимости от рабочей нагрузки и как это сделать: примеры и рекомендации. 3 вида рабочей нагрузки в потоковых конвейерах Конвейер потоковой передачи событий может реализовывать различные сценарии: обратная засыпка (backfilling), когда конвейер потребляет все исторические данные, считывая все сообщения, доступные во входных источниках, пока не...