Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Май
2023

Под капотом табличного хранилища Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink Table Store, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Год назад мы уже писали, как в Apache Flink появились табличные хранилища и зачем они нужны. Сегодня заглянем под капот Flink Table Store, познакомившись со структурой файлов и каталогов. Архитектура и принципы работы Flink Table Store Поскольку Apache Flink объединяет пакетную обработку данных с потоковой, для работы этого универсального stateful-механизма...

27Май
2023

Kafka Streams vs ksqlDB: что и когда использовать

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB Apache Kafka примеры курсы обучение, Kafka Streams vs ksqlDB сходства и отличия, чем похожи и как отличаются Kafka Streams и kSQL, Kafka Streams ksqlDB примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, чем Kafka Streams отличается от Consumer API. Сегодня рассмотрим, в чем разница между Kafka Streams и ksqlDB, а также разберем, почему использовать этот компонент экосистемы Apache Kafka не так просто. Как работает ksqlDB: практический пример Apache Kafka является полноценной экосистемой потоковой передачи, вокруг которой существует множество полезных...

24Май
2023

В помощь дата-инженеру: как организовать конвейер инкрементной загрузки данных

Автор Анна Вичуговав категории NoSql, Spark, Блог

архитектура данных, инженер данных архитектор Big Data примеры курсы обучение, инкрементный ETL, инженерия Big Data, Data Lake Delta Lake ETL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Инкрементные конвейеры загрузки больших объемов данных в корпоративное хранилище или озеро как самый экономичный способ масштабирования архитектуры данных. Разбираемся, как дата-инженеру эффективно организовать такие ETL-конвейеры. 2 способа организации конвейеров инкрементной загрузки данных Инкрементный ETL (Extract, Transform and Load) для классического DWH стал обычным явлением с источниками CDC (сбор данных об...

21Май
2023

Тестовые наборы для проверки UDF-функций Flink-приложения

Автор Анна Вичуговав категории Flink, Блог

тестовые наборы Apache Flink примеры курсы обучение, курсы Apache Flink разработка и тестирование SQL примеры курсы обучение , Flink SQL примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка и тестирование приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про тестирование приложений Apache Flink, используя SQL-клиентов, Table API, тестовые наборы операторов и режим локального мини-кластера. Сегодня рассмотрим, как с помощью тестовых наборов тестировать UDF-функции, использующих состояние и таймеры. Модульное тестирование UDF-функций Flink-приложения с помощью тестовых наборов При работе с Apache Flink разработчики часто сталкиваются с проблемами при...

20Май
2023

Пагинация SQL-запросов с Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

базы данных пагинация Apache NiFi, SQL процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi дата-инженер, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Школа Больших Данных Учебный центр Коммерсант

Как с помощью Apache NiFi запрашивать информацию из баз данных постранично. Разбираемся с возможностями и рисками использования процессоров NiFi для пагинации в SQL-запросах. Пагинация баз данных и процессоры Apache NiFi Apache NiFi позволяет запрашивать из баз данных целые таблицы с помощью разбиения на страницы, т.е. пагинации. Напомним, базы данных хранят...

18Май
2023

PL/Container для Greenplum: безопасный запуск UDF в Docker-контейнере

Автор Анна Вичуговав категории Greenplum, Блог

PL/Container Greenplum Docker примеры курсы обучение, расширения Greenplum , администрирование кластера Greenplum , администратор Greenplum , Greenplum для инженера данных и разработчика, UDF Greenplum примеры курсы обучение, Школа Больших данных Учебный Центр Коммерсант

Как сделать запуск UDF-функций Python или R на узлах сегмента Greenplum более быстрым и безопасным с помощью Docker-контейнеров и расширения PL/Container. Что такое PL/Container и как это использовать в Greenplum Запуск пользовательского кода для базы данных всегда имеет риск нарушения информационной безопасности. Если речь идет о стеке Big Data, ущерб...

17Май
2023

Материализованные представления, CQRS и CDC в микросервисной архитектуре

Автор Анна Вичуговав категории Use Cases, Блог

микросервисы в Big Data, архитектура данных, шаблоны проектирования микросервисов, архитектура микросервисов паттерны CQRS API Composition примеры применения, архитектура данных, CDC архитектура данных примеры реализации, архитектура микросервисных систем, потоковые базы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как материализованные представления в потоковой базе данных с CDC-подходом и шаблоном CQRS позволяют реализовать масштабируемую и высокопроизводительную систему с микросервисной архитектурой для транзакций и аналитики данных в реальном времени. Разбираемся с паттернами проектирования микросервисов на примере интернет-магазина. Что не так с шаблоном композиция API и другие проблемы микросервисной архитектуры в...

11Май
2023

Apache Spark 3.4.0: обзор апрельского релиза

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4.0 новые возможности, Apache Spark 3.4.0 обзор релиза, Spark Structured Streaming SQL PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

12 апреля 2023 года вышел очередной релиз Apache Spark. Разбираемся с самыми главными новинками этого выпуска, которые порадуют аналитиков, разработчиков, инженеров данных и специалистов по Data Science. Расширенная поддержка Python, улучшения Spark SQL и Structured Streaming. Обновления Spark SQL и новинки для пользователей Python Apache Spark 3.4.0 — это пятый...

08Май
2023

Как подключиться к Greenplum: обзор клиентов и настройка конфигураций

Автор Анна Вичуговав категории Greenplum, Блог

подключение к Greenplum, администрирование кластера Greenplum, обучение администраторов и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum кластер, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, хранение и аналитика больших данных с Greenplum, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Через какие интерфейсы пользователи и клиентские приложения могут подключиться к базе данных Greenplum, как происходит подключение, какие параметры и конфигурации надо задать при этом, а также почему для этого так важна библиотека libpq. Параметры подключения к Greenplum Пользователи могут подключаться к базе данных Greenplum с помощью клиентской программы, совместимой с...

04Май
2023

Блеск и нищета микросервисной архитектуры для платформы данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

микросервисы в Big Data, архитектура данных, архитектура платформы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем проблемы микросервисной архитектуры для платформ данных и способы их решения, а также вспомним 5 популярных шаблонов развертывания, которые могут смягчить риски от внедрения новых версий многокомпонентной системы. Проблемы микросервисной архитектуры для платформы данных и способы их решения При всех плюсах микросервисной архитектуры (автономность, гибкость, масштабируемость, простота развертывания, технологическая...

03Май
2023

Хранение и обработка JSON-документов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

JSON Greenplum примеры курсы обучение, Greenplum JSONPath PostgreSQL примеры курсы обучение, обработка документов в Greenplum и PostgreSQL , обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Чем тип JSONB отличается от JSON и почему это так важно для хранения и обработки данных гибкой структуры в Greenplum. Примеры SQL-запросов к JSON-данным и особенности синтаксиса JSONPath. Чем JSONB отличается от JSON и почему это так важно? Будучи основанной на PostgreSQL, Greenplum имеет множество аналогичных возможностей, включая поддержку работы...

02Май
2023

Проблемы shuffle-операций в Spark SQL и способы их решения

Автор Анна Вичуговав категории Spark, Блог

shuffle Spark SQL, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Apache Spark примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Почему на самом деле нельзя избежать shuffle-операций в Spark SQL, в чем разница перетасовки RDD и датафреймов, а также как сократить негативное влияние перемешивания данных по узлам кластера, настроив конфигурации распределенного приложения. Что такое shuffle-операции в Apache Spark SQL и зачем они нужны Распределенный характер вычислительного движка Apache Spark позволяет...

01Май
2023

Отладка конвейеров Apache AirFlow: операторы, кластерные политики и обратные вызовы задач

Автор Анна Вичуговав категории AirFlow, Блог

callback AirFlow operator кластерная политика, обратные вызовы Apache AirFlow, пользовательский оператор Apache AirFlow, отладка и мониторинг конвейеров обработки данных Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера дата-инженер, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Проблемы отладки конвейеров обработки данных в Apache AirFlow и способы их решения средствами самого фреймворка. Как дата-инженеру настроить мониторинг системных событий на уровне DAG или отдельной задачи: операторы, кластерные политики и обратные вызовы. Отладка конвейеров обработки данных в Apache AirFlow: проблемы и возможности Практикующий дата-инженер знает, как бывает сложно найти...

27Апр
2023

От ETL к ELT: архитектура конвейеров обработки данных для дата-инженера

Автор Анна Вичуговав категории Блог, Статьи

ETL vs ELT, ETl, ELT, дата-инженерия, инженерия данных, дата-инженер курсы примеры обучение, архитектура данных примеры курсы обучение, Data Lake DWH, Школа Больших Данных Учебный Центр Коммерсант

Чем динамичный ELT-подход лучше традиционного ETL, в чем разница между этими архитектурами конвейеров данных и зачем нужно профилирование данных при построении высокоэффективных дата-пайплайнов. Чем ETL отличается от ELT: ликбез для дата-инженера Аналитика больших данных невозможна без ETL/ELT-процессов, т.е. извлечения данных из разных источников (базы данных, файлы, API, прикладные системы), их...

26Апр
2023

Генерируемые столбцы в Greenplum 7: возможности и ограничения

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum PostgreSQL вычисляемые генерируемые столбцы примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum SQL инженерия данных курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Зачем в Greenplum 7 добавлены вычисляемые (генерируемые) столбцы, как их использовать, и чем они опасны: достоинства, недостатки и ограничения этой возможности. Что такое генерируемые столбцы Поскольку Greenplum основана на PostgreSQL, эта MPP-СУБД имеет множество похожих функций. В частности, в 7-ю версию Greenplum добавлена возможность сохранения вычисляемых (генерируемых) столбцов, которые вычисляются...

25Апр
2023

Сервер истории и слушатели событий Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка отладка и мониторинг приложений для разработчика примеры курсы обучение, Spark отладка мониторинг слушатели, Apache Spark веб-GUI, Apache Spark сервер истории, разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня познакомимся с сервером истории Apache Spark: зачем он нужен, как работает и при чем здесь слушатели событий. Отладка и мониторинг распределенных приложений для дата-инженера в веб-GUI. Что такое сервер истории Apache Spark Каждый раз при запуске Spark-приложения его контекст SparkContext запускает веб-интерфейс по умолчанию на порту 4040. Если несколько...

24Апр
2023

Устранение зависших в очереди задач: новинки будущего релиза Apache AirFlow 2.6.0

Автор Анна Вичуговав категории AirFlow, Блог

зависание задач в очереди Apache AirFlow, очереди задач Apache AirFlow, AirFlow executors, Celery Executor Kubernetes Apache Airflow, CeleryExecutor Airflow, CeleryExecutorKubernetes Apache Airflow, KubernetesExecutor Apache Airflow, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали про задачи-зомби в Apache AirFlow и способы их устранения. Продолжая тему управления распределенными процессами, сегодня поговорим про задачи, зависшие в очереди и универсальное решение для борьбы с ними, которое будет реализовано в выпуске Apache AirFlow 2.6.0, о других новинках которого читайте здесь. Жизненный цикл задачи в Apache...

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

15Апр
2023

Хранимые процедуры и триггеры в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum триггеры хранимые процедуры примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum SQL инженерия данных курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где и как используются триггеры, чем они отличаются от хранимых процедур, как это реализуется в Greenplum. Создание, изменение и удаление триггеров и ограничения их применения в Greenplum. Что такое хранимые процедуры и триггеры Напомним, хранимые процедуры представляют собой именованные блоки SQL-команд, которые заранее откомпилированы и хранятся на сервере, чтобы ускорить...

08Апр
2023

Потоковые режимы коннектора Flink SQL к Kafka

Автор Анна Вичуговав категории Flink, Блог

Flink Kafka connector SQL, дедупликация Apache Flink SQL примеры курсы обучение, потоковая обработка данных Apache Flink SQL, Apache Flink SQL для дата-инженеров примеры курсы обучение, как удалить дубли в потоковых данных Apache Flink SQL, курсы Apache Flink для разработчиков, обучение большим данным, инженерия Big Data Apache Flink SQL, Школа Больших Данных Учебный Центр Коммерсант

Как не запутаться в многообразии коннекторов к Kafka, доступных во Flink Table API, и выбрать наиболее подходящий для своего сценария применения. Разница между Append Mode и Upsert-режимом коннектора Flink SQL к Kafka. 2 режима работы коннектора Kafka в Apache Flink Apache Flink поставляется с универсальным соединителем Kafka, который поддерживает последнюю...