Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

12Янв
2023

Автор Анна Вичуговав категории NiFi, Блог

репозитории Apache NiFi, Apache NiFi администратор кластера примеры курсы обучение, администрирование Apache NiFi лучшие практики примеры курсы обучение, Apache NiFi дата-инженер курсы обучения, инженерия данных курсы примеры обучение, инженер данных Big Data Apache NiFi примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Apache NiFi, чтобы понять, какие данные хранит этот потоковый ETL-маршрутизатор, зачем и где. Репозитории Apache NiFi для администратора, дата-инженера и проектировщика конвейеров обработки данных: как они устроены и какие практики улучшают их работу. Репозитории Apache NiFi: что это такое и зачем они нужны В Apache NiFi...

11Янв
2023

Профессиональная вендор-независимая сертификация по продуктам Big Data в 2023 году

Автор Анна Вичуговав категории Блог

сертификация ИТ-специалистов, международный сертификат ИТ, Apache Kafka Hadoop Greenplum Spark сертификация обучение администратор разработчик дата-инженер примеры курсы, сертификация по большим данным, профессиональный сертификат Big Data Россия РФ Hadoop Kafka Greenplum Spark обучение дата-инженеров администраторов разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Риски и возможности отечественного рынка труда с точки зрения профессиональной сертификации по технологиям больших данных. Как и зачем Школа Больших Данных разрабатывает профессиональную вендор-независимую сертификацию по продуктам и технологиям Big Data для еще лучшей подготовки и оценки ИТ-специалистов на российском рынке, опустевшем после ухода западных вендоров. Как изменился рынок профессиональных...

10Янв
2023

Flink + Kafka: Confluent купил Immerok

Автор Анна Вичуговав категории Flink, Kafka, Блог

Confluent Cloud Immerok Kafka Flink 2023, Apache Kafka Confluent Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink Kafka, обучение дата-инженеров и разработчиков Kafka Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Зачем корпорации Confluent, которая продвигает Apache Kafka, понадобился Flink-стартап, чего ожидать от очередного слияния поглощения крупным игроком более мелкого предприятия, и какую пользу это принесет экосистеме потоковой передачи событий. Что Immerok и зачем это Confluent Год только начался, а в мире Big Data уже появились интересные новости. 6 января в...

09Янв
2023

События, сообщения, микросервисы и Apache Kafka: архитектурный холивар

Автор Анна Вичуговав категории Kafka, Блог

архитектура приложений распределенные микросервисы Kafka примеры курсы обучение, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Хотя Apache Kafka часто используется в качестве шины обмена данными в микросервисной архитектуре, о чем мы писали здесь, не стоит воспринимать эту платформу как хранилище событий. В чем разница между событием и сообщением, а также другие тонкости построения микросервисной архитектуры, управляемой событиями. События vs сообщения Событие — это сообщение программной...

08Янв
2023

СУБД вместо очереди сообщений: опыт команды Dagster Cloud

Автор Анна Вичуговав категории Kafka, NoSql, Блог

PostgreSQL Big Data Примеры курсы обучение, архитектурные паттерны Big Data, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Использование СУБД вместо очереди сообщений считается антипаттерном, однако, команда разработки облачной системы организации конвейеров обработки данных Dagster Cloud выбрала PostgreSQL вместо Apache Kafka для регистрации событий. Разбираемся, почему плохой шаблон принес хорошие результаты и что нужно учитывать при выборе технологии. Почему не стоит использовать СУБД вместо очереди сообщений Dagster Cloud...

06Янв
2023

Модульное тестирование Spark-приложений с Gradle

Автор Анна Вичуговав категории Spark, Блог

разработка и тестирование Spark приложений примеры курсы обучение, обучение Apache Spark, Spark обработка качество данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, кластер Apache Spark Параллельные вычисления, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Специально для обучения дата-инженеров и разработчиков распределенных программ, сегодня рассмотрим подходы к организации модульного тестирования Spark-приложений через классы тестовых данных. Зачем и как генерировать эти классы, где их хранить и при чем здесь система автоматической сборки приложений Gradle. Сборка и тестирование Spark-приложений Модульное тестирование лежит в основе проверки работоспособности программного...

03Янв
2023

Как Apache Flink использует Calcite для выполнения SQL-запросов

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка SQL Calcite оптимизация примеры курсы обучение , Flink SQL примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали, что Apache Flink использует Calcite для оптимизации SQL-запросов. Продолжая разбирать эту тему, важную для обучения разработчиков Flink-приложений и дата-инженеров, сегодня рассмотрим, как отследить происхождение отношения на уровне поля, используя методы класса RelMetadataQuery в Calcite. Что такое Apache Calcite и при чем здесь Flink SQL Напомним, Apache Flink...

01Янв
2023

OLAP-базы данных vs потоковые stateful-приложения

Автор Анна Вичуговав категории Блог

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про сравнения технологий потоковой аналитики больших данных и аналитических баз данных реального времени на примере сравнения ksqlDB и Rockset. Продолжая этот разговор про архитектуру данных и приложений, сегодня рассмотрим сходства и отличия потоковых баз данных со stateful-приложениями обработки событий в реальном времени. 2 технологии потоковой обработки: stateful-приложения...

31Дек
2022

CDC с Kestra вместо Debezium с Kafka Connect

Автор Анна Вичуговав категории AirFlow, Kafka, Блог

инженер данных примеры курсы обучение Debezium CDC Kestra, курсы Apache Kafka Интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka Для разработчиков обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Как реализовать CDC-сценарий, используя платформу оркестрации Kestra вместо Debezium с Kafka Connect для планирования и управления конвейером обработки данных. За счет чего Kestra работает эффективнее Debezium с коннекторами Kafka Connect и при чем здесь Apache AirFlow с NiFi. Что не так с реализацией CDC на Debezium с Kafka Connect Мы...

30Дек
2022

3 процессора обработки записей в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Зачем нужны средства записи и чтения в процессорах Apache NiFi и как они работают: разбираемся на примере QueryRecord, PartitionRecord и RouteText. Сходства и отличия этих процессоров, а также тонкости их использования в задачах дата-инженерии. Процессор QueryRecord в Apache NiFi Напомним, в потоковом ETL-маршрутизаторе Apache NiFi процессоры используются для прослушивания входящих...