Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

25Окт
2023

Тюнинг Greenplum 7: 12 конфигураций для администратора и дата-инженера

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, настройка Greenplum, тюнинг конфигураций и параметров Greenplum, что настроить в Greenplum, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Что настроить в Greenplum 7, чтобы сделать эту MPP-СУБД еще эффективнее. Обзор наиболее популярных параметров конфигурации и рекомендации по установке их значений. Ограничения подключений и выполнения SQL-запросов: 6 параметров с перезагрузкой системы Будучи зрелой системой со множеством настроек, Greenplum предоставляет администратору и дата-инженеру широкие возможности по адаптации этой СУБД к...

23Окт
2023

Эскизы данных в Apache Spark с библиотекой DataSketches

Автор Анна Вичуговав категории Spark, Блог

Apache Spark SQL 3.5.0 Datasketches, Datasketches Spark SQL примеры курсы обучение, потоковые вычисления в Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

С версии 3.5.0Apache Spark поддерживает Datasketches – программную библиотеку стохастических потоковых алгоритмов. Разбираемся, что это такое, и при чем здесь алгоритм HyperLogLog. Что такое Apache Datasketches и зачем это нужно В аналитике больших данных часто возникают проблемные запросы, которые не масштабируются, поскольку требуют огромных вычислительных ресурсов и времени для получения...

22Окт
2023

Зачем вам Conduktor Gateway для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

реестр схем Kafka и Conduktor Gateway , Apache Kafka безопасность, Kafka для разработчиков и дата-инженеров, шифрование Kafka шифрование сообщений в Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали пример шифрования полезной нагрузки с чувствительными данными на стороне продюсера и их расшифровку на потребителе Apache Kafka. Такой примитивный способ подходит для интеграции нескольких приложений, но в больших масштабах становится очень неудобным. Читайте, как Conduktor Gateway для Apache Kafka поможет выйти из этой ситуации, обеспечив защиту конфиденциальных...

17Окт
2023

Машинное обучение с Greenplum: обзор ML-расширений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

машинное обучение Greenplum и PostgreSQL, расширения Greenplum и PostgreSQL, ИИ и векторные СУБД, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как использовать Greenplum в проектах машинного обучения: знакомимся с расширением PostgresML и модулем pgvector. Возможности и ограничения плагинов, превращающих MPP-СУБД в полноценный MLOps-инструмент. Как превратить Greenplum в векторную базу данных с расширением pgvector Будучи вариацией PostgreSQL с механизмами массово-параллельной загрузки, Greenplum отлично справляется с огромным объемом данных. Однако, к хранилищам...

16Окт
2023

Сетевые буферы в Apache Flink: что это такое и при чем здесь контрольные точки

Автор Анна Вичуговав категории Flink, Блог

сетевые буферы Flink, контрольные точки Flink, потоковая обработка Flink, управление памятью JVM Apache Flink, курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как Apache Flink обеспечивает стабильно высокую пропускную способность потоковой обработки данных с помощью сетевых буферов и контрольных точек, каковы возможности и ограничения этих механизмов и какие конфигурации надо настроить для их эффективного использования. Зачем Apache Flink нужны сетевые буферы Каждая запись в Flink отправляется следующей подзадаче вместе с другими записями...

14Окт
2023

Контрольные точки в Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

Checkpoints spark streaming, контрольные точки Spark, отказоустойчивость Spark-приложений, Spark разработка распределенных приложений примеры курсы обучение, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, Spark stateful-приложения потоковая обработка больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы обеспечить отказоустойчивость потоковых приложений, Apache Spark использует механизм контрольных точек. Какие они бывают, когда их включать и как настроить для эффективной работы. Что такое checkpoint в Apache Spark и зачем он нужен Чтобы приложение потоковой передачи было устойчиво к сбоям по внешним причинам, например, отказ JVM, Spark Streaming сохраняет...

13Окт
2023

Защита чувствительных данных в системе с Apache Kafka через криптографию

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер Kafka, пример публикация данных в Apache Kafka, пример потребления данных из Apache Kafka, Python Produser Consumer API, шифрование данных для Kafka, публикация сообщений в Kafka и задержка потребления, как измерить задержку потребления в Apache Kafka, потребление из Kafka в реальном времени, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, примеры сжатия сообщения Apache Kafka, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Простой пример шифрования полезной нагрузки с чувствительными данными на стороне продюсера и их расшифровка на потребителе Apache Kafka: пишем и запускаем Python-код в Google Colab. Публикация данных в Kafka: шифрование на стороне продюсера Apache Kafka часто используется для обмена данными между несколькими системами внутри предприятия. Однако, даже при работе во...

10Окт
2023

Гибкая кластеризация: новая технология управления данными в Delta Lake от Databricks

Автор Анна Вичуговав категории Spark, Блог

DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Зачем разделять таблицы в озере данных, что не так с Hive-разделением и Z-упорядочение в Delta Lake и как работает жидкая кластеризация (Liquid Clustering) – новая стратегия оптимизации размещения данных от Databricks. Что не так с Hive-разделением и Z-упорядочение таблиц в Delta Lake В озере данных физическое расположение данных может оказать...

08Окт
2023

ТОП-5 советов по эффективному управлению данными в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

повышение эффективности Greenplum, ускорение SQL-запросов в Greenplum, архитектура данных Greenplum, тонкая настройка базы данных Greenplum, Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Как выбирать политики распределения и разделения данных в Greenplum, в чем польза динамического сканирования индексов, зачем регулярно использовать операции VACUUM и ANALYZE, из-за чего тормозят SQL-запросы и как это исправить. Эффективное распределение и разделение Будучи основанной на PostgreSQL, Greenplum расширяет возможности этой замечательной СУБД, добавляя операции с массово-параллельной обработкой. Для...

06Окт
2023

Как измерить задержку потребления из Apache Kafka: простой пример

Автор Анна Вичуговав категории Kafka, Блог

публикация сообщений в Kafka и задержка потребления, как измерить задержку потребления в Apache Kafka, потребление из Kafka в реальном времени, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, примеры сжатия сообщения Apache Kafka, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Насколько быстро работает Apache Kafka в облачной платформе Upstash: пишем простой пример для пары продюсер-потребитель на Python и измеряем задержку. Миллисекундное отставание при публикации и минутная задержка обработки данных на потребителе. Задержка публикации сообщений в Kafka Чтобы измерить задержку асинхронного обмена данными в системе с EDA-архитектурой из продюсера и потребителя...