Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Мар
2024

Администрирование Greenplum с помощью утилиты gpsupport

Автор Анна Вичуговав категории Greenplum

Greenplum администрирование примеры курсы обучение, администратор Greenplum, системные утилиты техподдержка Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Как найти зависший процесс в базе данных Greenplum, создать резервную копию каталога, разделить лог-файл по тестам и проверить его на наличие повреждений. Знакомимся с набором утилит gpsupport. 6 инструментов утилиты gpsupport для техподдержки Greenplum Как и любая крупная система Greenplum, помимо компонентов, обеспечивающих ее ключевые функции, также включает дополнительные инструменты,...

10Мар
2024

Потоковая обработка данных из PostgreSQL с Flink SQL на платформе Ververica Cloud

Автор Анна Вичуговав категории Flink

Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как с помощью Flink SQL организовать потоковую агрегацию данных из таблицы PostgreSQL: знакомство с API таблиц в Ververica Cloud на практическом примере. API таблиц Ververica Cloud: создаем внешние источники и приемники данных Как я недавно рассказывала, немецкая фирма Ververica создала высокопроизводительный облачный сервис для обработки данных в реальном времени на...

09Мар
2024

Как создать дэшборд NeoDash для графовой базы данных Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql

Neo4j NeoDash примеры, Cypher-запросы к Neo4j , дэшборд NeoDash, анализ и визуализация графов, аналитика больших данных с графами, задачи на графах в бизнесе пример, Школа Больших Данных Учебный Центр Коммерсант

Создаем визуализации Cypher-запросов к своему графу в графовой базе данных Neo4j с помощью дэшборда NeoDash на примере анализа финансовых транзакций в банке. Python-генерация графа в Neo4j с фейковыми данными Поскольку NoSQL-СУБД Neo4j отлично подходит для задач графовой аналитики больших данных благодаря своей нативно графовой модели хранения данных, ее можно использовать...

08Мар
2024

Тестирование доступности веб-сайта с помощью http-хуков Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Apache AirFlow HTTPHook, хуки AirFlow, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Сегодня я покажу, как проверить доступность веб-сайта с помощью http-хука в Apache AirFlow и отправить результаты проверки в Телеграм-бот. Еще раз про хуки и соединения Apache AirFlow Доступность системы является ключевым свойством информационной безопасности. Проверить, что веб-сервис доступен, можно по статусу HTTP-ответа на GET-запрос. Чтобы делать такую проверку периодически, т.е....

07Мар
2024

Как создать и запустить docker-контейнер Apache AirFlow на Windows

Автор Анна Вичуговав категории AirFlow

Apache AirFlow WSL, docker-контейнер AirFlow, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных devOps docker, Школа Больших Данных Учебный Центр Коммерсант

Что такое WSL, Docker и как запустить веб-сервер Apache AirFlow в контейнере на локальной машине в Ubuntu поверх Windows вместо любимого Google Colab. Пошаговое руководство для начинающих дата-инженеров. Краткий ликбез по WSL и Docker для любителей Windows Обычно я всегда запускала веб-сервер Apache AirFlow в интерактивной среде Google Colab, которая...

06Мар
2024

Из Apache Kafka в Elasticsearch: реализуем sink-коннектор и строим дашборд в Kibana

Автор Анна Вичуговав категории Kafka, NoSql

Kibana дашборд Elasticsearch пример, ETL CDC инженерия данных, реализация ETL-конвейеров с РСУБД, интеграция Kafka с Elasticsearch через Aiven коннектор, создание коннекторов Kafka примеры курсы обучение, Kafka Connect, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Недавно я писала, как с помощью source-коннектора Debezium организовать потоковый захват изменения данных из таблицы PostgreSQL путем публикации CDC-событий в Apache Kafka. Продолжая эту тему, сегодня покажу пример визуализации аналитики этих данных в Kibana, предварительно загрузив их в Elasticsearch с sink-коннектором Aiven. Постановка задачи и проектирование конвейера Как обычно, в...

28Фев
2024

Как использовать реестр схем Kafka Confluent: пример Python-продюсера

Автор Анна Вичуговав категории Kafka

Kafka Schema Registry, реестр схем Kafka Confluent пример, обучение Kafka, курсы по Kafka, Kafka Для инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Сегодня я покажу пример использования реестра схем для Apache Kafka на платформе Upstash, API которого полностью совместим со Schema Registry от Confluent. Пишем продюсер на Python, используя библиотеку confluent_kafka. Еще раз о том, что такое реестр схем Kafka и чем он полезен Реестр схем (Schema Registry) – это модуль Confluent...

27Фев
2024

Журналирование событий в Apache Spark и сжатие лог-файлов

Автор Анна Вичуговав категории Spark

Когда журналирование событий может привести к OOM-ошибке, где отслеживать системные метрики приложения Apache Spark, зачем сжимать лог-файлы и как это сделать. Логирование системных метрик в приложении Apache Spark Поскольку фреймворк Apache Spark изначально предназначен для создания высоконагруженных распределенных приложений пакетной и потоковой обработки больших объемов данных, он позволяет отслеживать системные...

19Фев
2024

Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

Автор Анна Вичуговав категории Machine Learning

связывание данных Arc Splink , обработка больших данных, глубокий анализ данных, качество больших данных, Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения. Как работает связывание данных Продолжая разговор про качество данных и разрешение сущностей (entity resolution) , сегодня подробно рассмотрим этап связывания записей с использованием логики на основе правил...

18Фев
2024

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....

17Фев
2024

4 модели потоковой парадигмы обработки данных

Автор Анна Вичуговав категории Flink, Kafka, Spark

Streaming архитектура инженерия данных, потоковая обработка больших данных, Kafka Flink Spark Streaming, потоки Big Data примеры курсы обучение, обучение дата-инженеров и архитекторов данных, курсы инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Чем пакетная парадигма обработки данных отличается от пакетной и как она реализуется на практике: принципы работы и воплощение в Big Data на примере Apache Spark, Kafka и Flink. Еще раз о разнице потоковой и пакетной парадигмы обработки данных Пакетная обработка и потоковая обработка — это две разные парадигмы обработки данных....

16Фев
2024

Аутентификация и авторизация пользователей в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, безопасность Apache AirFlow, аутентификация и авторизация пользователей Apache AirFlow, управление пользователями Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем ограничивать доступ к папке с DAG и как это сделать: категории и роли пользователей в Apache AirFlow, способы входа в систему и конфигурации для настройки прав. Категории и роли пользователей Apache AirFlow Поскольку основным источником угрозы почти для любой информационной системы являются люди, при разработке методов обеспечения безопасности надо,...

15Фев
2024

Планирование заданий в Apache Flink: 4 реализации планировщика

Автор Анна Вичуговав категории Flink

планировщик заданий Apache Flink, планирование заданий Apache Flink, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как работает планировщик заданий в Apache Flink, чем разные реализации Scheduler отличаются друг от друга, и каковы преимущества адаптивных планировщиков. Как Apache Flink планирует выполнение заданий клиентской программы Архитектура Apache Flink, которую мы рассматривали здесь, включает несколько компонентов. Одним из них является планировщик заданий, которые отправляются клиентским приложением в диспетчер...

12Фев
2024

Как написать свой Controller Service в Apache NiFi

Автор Анна Вичуговав категории NiFi

обучение Apache NiFi, Apache NiFi для инженера данных, эксплуатация Apache NiFi, Controller Service Apache NiFi, курсы дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое Controller Service в Apache NiFi и как дата-инженеру создать собственный набор настроек для совместного и повторного использования в потоковом конвейере обработки данных. Что такое Controller Service в Apache NiFi Apache NiFi реализует потоковую парадигму обработки информации, выполняя ETL-операции над FlowFile с помощью обработчиков, называемыми процессорами. Если какие-то процессоры...

11Фев
2024

Зачем Ververica Cloud заменила RocksDB на GeminiStateBackend для stateful-приложений Apache Flink

Автор Анна Вичуговав категории Flink

Что такое Ververica Runtime Assembly, чем GeminiStateBackend лучше RocksDB и еще несколько отличий коммерческого облачного решения от открытого Apache Flink. Что такое Ververica Cloud и при чем здесь Apache Flink Технологии с открытым исходным кодом развиваются намного быстрее при поддержке крупных корпораций. Например, компания Confluent продвигает Apache Kafka, Astronomer –...

10Фев
2024

Обратное давление в потоковой передаче событий

Автор Анна Вичуговав категории Flink, Kafka, NiFi, Spark

что такое Backpressure в потоковой передаче событий, Backpressure Kafka Spark Flink NiFi, обучение разработчиков Big Data примеры курсы, Школа Больших Данных

Что означает термин backpressure и зачем создавать обратное давление в streaming-системах: разбираемся с методами управления пропускной способностью потоковой передачи событий на примере Apache Kafka, Flink, Spark и NiFi. Что такое обратное давление: backpressure в конвейерах потоковой обработки данных Понять, как работает сложная концепция, проще всего на простых примерах. Это общее...

03Фев
2024

4 стратегии мультирегионального развертывания Apache Kafka

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Завершая цикл статей про мультирегиональную репликацию кластеров Apache Kafka, сегодня поговорим про стратегии развертывания топологий, предлагаемых компанией Confluent. Принципы архитектуры, сравнение, сценарии, критерии выбора. Критерии выбора топологии репликации кластера Apache Kafka Для повышения надежности и производительность потоковой обработки данных с использованием Apache Kafka кластера этой платформы рекомендуется располагать в разных...

02Фев
2024

Реализация CDC из PostgreSQL в Apache Kafka с коннектором Debezium

Автор Анна Вичуговав категории Kafka

ETL CDC инженерия данных, реализация ETL-конвейеров с РСУБД, интеграция Kafka с PostgreSQL через Debezium, создание коннекторов Kafka примеры курсы обучение, Kafka Connect, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Сегодня я покажу на практическом примере, как реализовать потоковый захват изменения данных из таблицы PostgreSQL и их репликацию в Apache Kafka с помощью Debezium. Создаем и настраиваем свой коннектор на платформе Upstash. Постановка задачи Паттерн захвата измененных данных (CDC, Change Data Capture) является одним из самых распространенных в инженерии данных....

31Янв
2024

4 способа реализации мультирегиональной репликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Продолжая разговор про межрегиональную репликацию Apache Kafka, сегодня рассмотрим 4 способа ее реализации: мультирегиональный кластер, MirrorMaker 2, Cluster Linking в Confluent Server и Confluent Replicator. Чем георепликация Kafka с MirrorMaker 2 отличается от решений Confluent и что выбирать для различных сценариев. Мультирегиональный кластер Confluent Геораспределенная репликация реплицирует данные по кластерам...

27Янв
2024

2 решения Confluent для мультирегиональной георепликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Недавно мы писали про мультирегиональную репликацию Apache Kafka. Сегодня рассмотрим, как выполнить геораспределенную репликацию с помощью Cluster Linking в Confluent Server и Kafka Connect с Confluent Replicator. Cluster Linking для Apache Kafka Связанные кластеры представляют собой 2 или более кластера в разных географических регионах. В отличие от топологии растянутого кластера,...