Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

15Янв
2025

Разработка унифицированных конвейеров обработки данных с Apache Beam

Автор Анна Вичуговав категории Beam, Machine Learning

Apache Beam примеры курсы обучение, Beam для дата-инженера, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Что такое Apache Beam, зачем он нужен, чем полезен дата-инженеру и как его использовать: архитектура, принципы работы и примеры построения пакетных и потоковых конвейеров обработки данных. Что такое Apache Beam и зачем он нужен Хотя выбор технологического стека – один из важнейших вопросов архитектурного проектирования, иногда требуется универсальное решение построения...

13Янв
2025

Переменные в Apache AirFlow: примеры и советы

Автор Анна Вичуговав категории AirFlow

Airflow переменные, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Зачем нужны переменные в Apache AirFlow, какие они бывают, как создать переменную и использовать ее: примеры и рекомендации для эффективной дата-инженерии. Зачем нужны переменные в Apache AirFlow, и какие они бывают Чтобы хранить информацию, которая редко меняется, например, ключи API, пути к конфигурационным файлам, в Apache Airflow используются переменные. Переменные...

10Янв
2025

Новый Flink-коннектор к Prometheus для IoT

Автор Анна Вичуговав категории Flink

Почему репортеры мониторинга системных метрик Flink, отправляющие данные в Prometheus, не решают проблемы предварительной обработки измерений с IoT-устройств, и как новый коннектор расширяет сферу применения фреймворка потоковой обработки. Встроенные средства мониторинга системных метрик Flink В декабре 2024 года вышел новый коннектор Apache Flink к Prometheus – популярной базе данных временных...

09Янв
2025

Реализация архитектуры Medallion в ClickHouse

Автор Анна Вичуговав категории ClickHouse

архитектура данных курсы, ClickHouse примеры курсы обучение, ClickHouse Школа Больших Данных

Почему ClickHouse подходит для архитектуры данных Medallion и как реализовать это слоистое хранилище средствами колоночной СУБД без сторонних инструментов: лучшие практики и примеры использования. 3 слоя архитектуры данных Medallion Слоистая архитектура, предложенная компанией Databricks, сегодня считается классикой для построения озер и хранилищ данных. Она предполагает реализацию 3-х уровней (слоев): Бронза,...

08Янв
2025

Управление развертыванием контейнерных приложений в Kubernetes с Argo Rollouts

Автор Анна Вичуговав категории Spark

Администрирование Kubernetes примеры курсы обучение, Kubernetes для DevOps-инженера примеры курсы обучение дата-инженеров, Kubernetes Argo Workflows, автоматизация CI/CD, Школа Больших Данных Учебный Центр Коммерсант

Сложности развертывания контейнерных stateful-приложений и как их решить с Argo Rollouts и Kubernetes Downward API: примеры YAML-конфигураций канареечного развертывания Spark-приложения. Расширение стратегий развертывания в Kubernetes с Argo Rollouts Мы уже писали, в чем сложности оркестрации параллельных заданий на платформе Kubernetes и как их можно решить с помощью Argo Workflows -...

07Янв
2025

Безопасность в кластере Trino: настройка конфигураций на примерах

Автор Анна Вичуговав категории Trino

Trino курсы примеры обучение, Trino для разработчика, Trino примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Где и как задавать настройки безопасного доступа клиента к кластеру Trino, каким образом обеспечить безопасность внутри кластера и защитить доступ к внешним источникам данных: примеры конфигураций. Как настроить безопасную работу кластера Trino По умолчанию в Trino не включены функции обеспечения безопасности. Однако, это можно настроить для различных частей архитектуры фреймворка:...

06Янв
2025

ETL-конвейер с Flink CDC: пример YAML-конфигурации

Автор Анна Вичуговав категории Flink

Flink CDC примеры курсы обучение, обучение Flink для дата-инженеров, Школа Больших Данных курсы по Flink

Как описать ETL-конвейер захвата, преобразования и передачи изменения данных в YAML-файле: пример конфигурации Flink CDC из PostgreSQL в Elasticsearch. ETL-конвейер Flink CDC в YAML-файле Apache Flink позволяет строить надежные конвейеры обработки данных, используя не только с внутренние API, но и с помощью дополнительных компонентов. Одним из таких компонентов является Flink...

26Дек
2024

Stateful-преобразование потокового датафрейма из Apache Kafka с Quix Streams

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как Quix Streams реализует отказоустойчивую stateful-обработку потоковых датафреймов из топиков Kafka с помощью встроенного key-value хранилища состояний RocksDB: практический пример. Потоковый stateful-конвейер на Apache Kafka и Quix Streams Продолжая знакомиться с библиотекой Quix Streams, которая позволяет получить потоковые датафреймы из данных в топиках Kafka, сегодня разберем, как здесь организована работа...

25Дек
2024

Итоги 2024 и планы на 2025

Автор Анна Вичуговав категории Новости

Вот и пролетел очередной год. Спасибо вам, наши дорогие коллеги, слушатели и партнеры за плодотворное сотрудничество! Мы очень рады работать с вами и будем стараться для вас все следующие 12 месяцев. Желаем всем нашим слушателям, коллегам и партнерам здоровья, профессионального роста и продвижения в новом 2025 году! В новом 2025...

24Дек
2024

Потоковый конвейер на Apache Kafka с библиотекой Quix Streams

Автор Анна Вичуговав категории Kafka

Быстрая и простая обработка потоков сообщений в одном приложении с Quix Streams вместо Kafka Streams: практический пример на Python с обогащением и фильтрацией данных. Практический пример потокового конвейера с Apache Kafka и Quix Streams Сегодня я познакомилась с Quix Streams - очередной замечательной библиотекой для создания потоковых конвейеров обработки данных...

23Дек
2024

Оркестрация контейнерных приложений с Argo Workflows

Автор Анна Вичуговав категории Статьи

В чем сложности оркестрации параллельных заданий в Kubernetes и как их решить с помощью Argo Workflows: обзор фреймворка и практический пример YAML-спецификации шаблона рабочего процесса для развертывания веб-приложения. Что такое Argo Workflows и зачем он нужен Оркестрация параллельных заданий на платформе Kubernetes довольно сложна из-за их внутренних зависимостей друг от...

19Дек
2024

Почему расширение Citus для PostgreSQL не превратит его в Greenplum?

Автор Анна Вичуговав категории Greenplum

Citus PostgreSQL Greenplum, курсы Greenplum, обучение Greenplum, Greenplum для дата-инженеров, администрирование кластера Greenplum

Как расширение Citus повышает производительность PostgreSQL, организуя распределенный кластер с помощью шардирования и почему этого недостаточно для эффективных OLAP-запросов как в Greenplum. Что такое Citus для PostgreSQL Поскольку Greenplum представляет собой массив отдельных баз данных PostgreSQL 12, работающих вместе для представления единого образа базы данных, у тех, кто знакомится с...

18Дек
2024

Очереди задач исполнителя Celery в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow Celery, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Как работает исполнитель Celery в Apache AirFlow, зачем ему очередь сообщений и каким образом это помогает масштабировать параллельное выполнение задач. Как работает исполнитель Celery в Apache AirFlow Именно исполнитель (Executor) в Apache Airflow отвечает за выполнение задач в рабочих процессах, определяя их локацию и последовательность, а также использование ресурсов. Хотя...

17Дек
2024

Проекции в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Зачем создавать разные проекции таблиц в базе данных и как это работает в Clickhouse: практический пример с агрегатным запросом. Возможности и ограничения механизма проекций в колоночной аналитической СУБД. Что такое проекции и как они реализованы в ClickHouse Поскольку основное назначение ClickHouse – аналитика больших объемов данных в реальном времени, это...

16Дек
2024

Как Trino работает с удаленными объектными хранилищами

Автор Анна Вичуговав категории Trino

Зачем Trino использует внешние таблицы при запросах к данным в объектных хранилищам и удаленных файловых системах, чем они отличаются от внутренних и как повысить производительность таких SQL-запросов с помощью кэширования. Доступ из Trino к данным в объектных хранилищах Помимо реляционных и нереляционных баз данных, Trino позволяет делать распределенные запросы и...

13Дек
2024

Обратное давление в потоковых конвейера с Apache Kafka

Автор Анна Вичуговав категории Kafka

Как реализовать концепцию обратного давления (backpressure) в потоковой обработке событий с Apache Kafka: настройка конфигураций на стороне приложений-продюсеров и потребителей, а также мониторинг системных метрик. Обратное давление при публикации событий в Kafka Мы уже писали о том, зачем нужна концепция обратного давления (backpressure) в потоковой передаче событий и как она...

12Дек
2024

От Akka к Pekko: реализация RPC в Apache Flink

Автор Анна Вичуговав категории Flink

курсы Flink примеры обучение, Flink для инженеров данных, Apache Flink для разработчика, Школа Больших Данных Учебный Центр Коммерсант

Зачем и как Apache Flink использует удаленный вызов процедур, с помощью каких технологий реализуется это RPC-взаимодействие и почему в 2023 году Akka заменен на Pekko. Удаленный вызов процедур в Apache Flink Мы уже рассказывали, как RPC-вызовы используются для коммуникации между компонентами Spark. Удаленный вызов процедур используется и в Apache Flink,...

11Дек
2024

Trino vs dbt: что и когда использовать

Автор Анна Вичуговав категории Trino

Что общего между Trino и dbt, чем они отличаются и в каких случаях выбирать тот или иной инструмент для инженерии и анализа данных. Краткий ликбез для начинающего дата-инженера и аналитика. Сходства и отличия Trino и dbt Trino и dbt (Data Build Tool) — это два популярных инструмента с открытым исходным...

10Дек
2024

Как ClickHouse работает с gRPC: практический пример

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, инженерия данных с ClickHouse, работа с ClickHouse , Школа Больших Данных Учебный центр Коммерсант

Чем полезна поддержка gRPC в Clickhouse и как ее реализовать: разбираем интерфейс удаленного вызова процедур на примере потоковой вставки событий пользовательского поведения из Kafka в таблицу колоночной базы данных со стриминговым выводом. Поддержка gRPC в ClickHouse ClickHouse поддерживает gRPC – фреймворк от Google и система удаленного вызова процедур с открытым...

09Дек
2024

Как наполнить Data LakeHouse данными из Apache Kafka с помощью Tableflow

Автор Анна Вичуговав категории Kafka

Data LakeHouse, архитектура данных, iceberg, Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что не так с классическими ETL/ELT-конвейерами транзакционных и аналитических систем в гибридное хранилище LakeHouse, и как дата-инженеры платформы Confluent хотят решить эти проблемы с помощью Tableflow, передавая события из Kafka в таблицы Iceberg. Очередная попытка унификации пакетной и потоковой парадигмы Чтобы обеспечивать потребности современного бизнеса в пакетной и потоковой аналитике,...