Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

21Апр
2023

UML-диаграмма последовательности потребления сообщений из Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka примеры курсы обучение, потребление сообщений из Kafka UML sequence, Python-потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы разбирали работу приложения-продюсера и строили UML-диаграмму последовательности. Сегодня рассмотрим, какие системные вызовы происходят при потреблении сообщений из Apache Kafka, при чем здесь группы потребителей и фиксация смещений. Как работает потребитель Kafka Аналогично разработке приложения-продюсера, при написании кода потребителя, который считывает данные из топика Apache Kafka, используются методы специальных...

20Апр
2023

Под капотом продюсера Kafka: UML-диаграмма публикации сообщений

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как на самом деле работает приложение-продюсер Apache Kafka: разбираемся с конфигурациями и составляем UML-диаграмму последовательности системных вызовов при публикации сообщений в топик. Как работает продюсер Kafka Когда разработчик пишет приложение-продюсер, которое публикует сообщение в топик Apache Kafka, он использует методы специальных библиотек, таких как kafka-python и пр. Достаточно только создать...

19Апр
2023

Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab

Автор Анна Вичуговав категории Flink, Kafka, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как использовать DataStream API в Apache Flink: пишем потребителя из Kafka и запускаем скрипт в Google Colab. StreamExecutionEnvironment и методы коллекций потока данных в PyFlink. DataStream API в Apache Flink: PyFlink в Google Colab для работы с Kafka Apache Flink предоставляет множество возможностей разработчикам на Scala и Java, а также...

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

17Апр
2023

Статистика vs глубокое обучение для анализа данных временных рядов: что выбрать?

Автор Анна Вичуговав категории Machine Learning, Блог

анализ данных временных рядов, машинное обучение, глубокое обучение, Data Science, курсы примеры обучение Data Science Big Data анализ данных, прогнозирование временных рядов, Школа Больших Данных Учебный Центр Коммерсант

Проблемы анализа данных временных рядов и способы их решения: какие статистические методы и алгоритмы глубокого обучения лучше подходят для прогнозирования. Особенности прогнозирования временных рядов Напомним, временным рядом считается набор данных, каждая точка которого привязана ко времени (час, минуты, дни, месяцы, годы и прочие периоды). Эти данные имеют динамический характер и...

16Апр
2023

4 способа попробовать Neo4j: сравнение альтернатив

Автор Анна Вичуговав категории Neo4j, Блог

Cypher Neo4j где попробовать бесплатно AuraDB AuraDS графы примеры курсы обучение, обучение Neo4j примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, Cypher API Neo4j примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где создать граф знаний и попробовать графовые алгоритмы для решения бизнес-задач: смотрим варианты запуска графовой СУБД на примере Neo4j. 4 варианта запуска Neo4j Neo4j является ярким представителем нереляционных СУБД и относится к категории графовых баз. Она поддерживает специализированные алгоритмы работы с графами, включая поиск путей, выявление сообществ, анализ связей и...

15Апр
2023

Хранимые процедуры и триггеры в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum триггеры хранимые процедуры примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum SQL инженерия данных курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где и как используются триггеры, чем они отличаются от хранимых процедур, как это реализуется в Greenplum. Создание, изменение и удаление триггеров и ограничения их применения в Greenplum. Что такое хранимые процедуры и триггеры Напомним, хранимые процедуры представляют собой именованные блоки SQL-команд, которые заранее откомпилированы и хранятся на сервере, чтобы ускорить...

14Апр
2023

Настройка службы SSL контекста Apache NiFi в процессоре InvokeHTTP

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi SSL настройка процессора InvokeHTTP примеры курсы обучение, дата-инженерия Apache NiFi безопасность администрирование примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как обеспечить безопасное подключение процессора InvokeHTTP к внешнему API, настроив SSL-службу контекста в Apache NiFi. Краткий ликбез по SSL-соединению и реализации API службы контроллера SSLContextService в Apache NiFi для дата-инженера. Безопасность работы с внешним API с SSL-соединением Apache NiFi включает множество процессоров – обработчиков, которые выполняют определенные действия с потоковыми...

13Апр
2023

Создаем свой оператор Apache AirFlow с ChatGPT

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow custom operator, ChatGPT operator Apache AirFlow, пользовательский оператор Apache AirFlow, машинное обучение дата-инженерия ChatGPT, обучение AirFlow, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Недавно мы разбирали, как дата-инженеру написать собственный оператор Apache AirFlow и использовать его в DAG. Сегодня посмотрим, каким образом с этой задачей справляется модный ИИ под названием ChatGPT. GPT-генерация пользовательского оператора AirFlow Хотя Apache AirFow предоставляет множество операторов для выполнения самых разных задач, иногда дата-инженеру приходится писать свои собственные Python-классы,...

12Апр
2023

2 режима развертывания приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, развертывание Spark-приложения локально, локальный и кластерный режимы развертывания Spark-приложения, развертывание Apache Spark, курсы по Spark для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как разработчику выбрать подходящий режим развертывания для своего Spark-приложения, достоинства и недостатки клиентского и кластерного режимов, а также особенности запуска под управлением YARN. Архитектура и режимы развертывания Spark-приложения Будучи фреймворком для создания приложений быстрой обработки Big Data, Apache Spark имеет несколько режимов развертывания, которые зависят от варианта запуска Spark-приложения: на...