Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

27Окт
2021

CDC-конвейер для MySQL на Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

обучение дата-инженеров, инженерия данных, дата-инженер Apache NiFi CDC MySQL курсы примеры обучение, обучение большим данным, курсы инженеров Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем типичный для современной дата-инженерии кейс построения конвейера обработки измененных данных на Apache NiFi с учетом безопасности и масштабируемости API-вызовов. Также рассмотрим, зачем использовать Apache NiFi при межсистемной интеграции через API-вызовы и как реализовать CDC-подход к изменениям в СУБД MySQL с помощью процессоров этого популярного ETL-фреймворка. CDC и интеграция...

23Окт
2021

Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Автор Анна Вичуговав категории Flink, Kafka, Блог

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Продолжая недавний разговор про потоковую передачу событий и соответствующие Big Data инструменты, сегодня рассмотрим не отдельные фреймворки обработки данных в режиме реального времени, а комплексные платформы, которые объединяют сразу несколько технологий для интерактивной аналитики больших данных. Вас ждет краткий обзор Cloudera Streaming Analytics, Materialize и Rockset: что это такое, как...

22Окт
2021

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum, курсы Greenplum, Greenplum для инженеров данных, администрирование Greenplum, Greenplum развертывание в облаке, Greenplum примеры внедрения, Arenadata DB курсы примеры обучение внедрение облачное развертывание, Школа Больших Данных Учебный центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной версией этой MPP-СУБД. Что такое VMware Tanzu Greenplum и чем это отличается от open-source версии Напомним, в 2020 году корпорация...

21Окт
2021

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Hadoop Spark YARN обучение примеры, курсы Spark SQL обучение, Apache Livy Spark примеры кейсы обучение курсы, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили заменить HiveServer2 на Spark Thrift JDBC/ODBC, зачем понадобилось писать собственный клиент поверх Apache Livy и как это было сделано. Зачем...

20Окт
2021

Пакетная обработка событий с Apache Kafka: прикладная дата-инженерия

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Хотя Apache Kafka стала стандартом де-факто для потоковой передачи событий, на этой платформе можно реализовать и пакетный режим вычислений. В рамках обучения дата-инженеров, сегодня рассмотрим, как совместить пакетную парадигму обработки Big Data с потоковой, развернув конвейер аналитики больших данных на Apache Kafka. Пакеты и потоки: versus или вместе Пакетную и потоковую...

19Окт
2021

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Iceberg NoSQL SQL-on-Hadoop Data Lake, Обучение дата-инженеров, озеро данных курсы ИТ-архитекторов Big Data обучение инженеров данных, обучение большим данным, курсы по большим данным озеро данных примеры обучение, Data Lake курсы Hadoop HDFS примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных. Он добавляет высокопроизводительные SQL-подобные таблицы в вычислительные механизмы Spark, Trino, Presto, Flink и Hive. Сегодня рассмотрим подробнее, что такое Apache Iceberg и...

14Окт
2021

5 проблем Apache Kafka и как Redpanda их решает

Автор Анна Вичуговав категории Kafka, Блог

Kafka проблемы и альтернативы, Kafka RabbitMQ Pulsar Redpanda, Redpanda, обучение Kafka, курсы Apache Kafka, Kafka для администраторов дата-инженеров и разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Redpanda примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Kafka является фреймворком №1 в потоковой обработке Big Data, эта распределенная платформа передачи событий имеет специфические недостатки и ограничения, которые затрудняют ее использование в некоторых сценариях. Сегодня рассмотрим, что именно в Apache Kafka усложняет жизнь администраторам, разработчикам и дата-инженерам, а также как Redpanda решает эти проблемы....

11Окт
2021

Повышаем параллелизм и пропускную способность потоковых приложений с Apache Kafka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka Streams для разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Streams Akka Streams примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka и Akka Streams, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Kafka рассмотрим пример масштабирования потоковой обработки событий с Akka Streams. Читайте далее, что не так с параллелизмом при одновременном выполнении событий на запись, как Akka Streams решает эту проблему и при чем здесь Apache Kafka. Проблемы масштабирования потоковой обработки в Kafka Streams Масштабная потоковая...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

07Окт
2021

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Анна Вичуговав категории Kafka, Блог

компьютерное зрение, распознавание лиц примеры обучение курсы, видеоаналитика примеры, конвейер обработки видео в реальном времени, обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей, IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как интегрировать алгоритмы машинного/глубокого обучения в систему видеоаналитики реального времени. Потоковая видеоаналитика: прием мультимедиа в реальном времени Видеоаналитика – одно из...

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

30Сен
2021

Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum настройка конфигурирование администрирование курсы обучение, лучшие практики администрирования Greenplum, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим пару полезных лайфхаков, как избежать избыточного потребления памяти, настроив конфигурационные параметры операционной системы хоста. Читайте далее, почему не стоит задавать слишком большой размер страниц виртуальной памяти, зачем администратору контролировать количество spill-файлов и как в этом помогает утилита gp_toolkit. Операционная система...

24Сен
2021

Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js

Автор Анна Вичуговав категории Kafka, Блог

KafkaJS, обучение Kafka, курсы Kafka, Apache Kafka для разработчиков, Apache Kafka KafkaJS примеры, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое KafkaJS, как это связано с Apache Kafka и JavaScript, в чем преимущества этой технологии и как разработчику распределенных приложений потоковой аналитики больших данных использовать ее на практике. Также вас ждет краткий ликбез по Node.js и примеры разработки KafkaJS-приложения. Краткий ликбез по Node.js Важными достоинствами архитектуры потоковой передачи...

22Сен
2021

3 совета администратору Greenplum: лучшие практики настройки кластера

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Хотя наши практические курсы по Greenplum и Arenadata DB больше ориентированы на аналитиков и дата-инженеров, чем на администраторов, в программы обучения также включены важные сведения по настройке этих MPP-СУБД. В этой статье мы собрали лучшие практики системного конфигурирования кластера Greenplum, которые помогут повысить эффективность аналитики больших данных в этой Big...

21Сен
2021

Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных в контекстной рекламе пример, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков событий - показов и кликов, чтобы вычислить конверсию рекламной кампании средствами Apache Flink или Spark. Потоки Big Data за фасадом...

17Сен
2021

Горизонтальное масштабирование кластера Apache Kafka: тонкости переназначения разделов

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В поддержку курсов по администрированию Apache Kafka, сегодня рассмотрим особенности масштабирования кластера и связанное с этим переназначение разделов. Читайте далее, чем горизонтальное масштабирование лучше вертикального, как переназначить разделы между брокерами Kafka с целью перебалансировки нагрузки и зачем ограничивать полосу пропускания для перемещения реплик между узлами кластера. Проблемы масштабирования кластера Apache...

16Сен
2021

Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

Автор Анна Вичуговав категории Spark, Блог

GUI курсы Спарк, обучение разработчиков Спарк, разработка Apache Spark обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Spark-приложений, сегодня рассмотрим, как сохранить датафрейм в памяти вне кучи исполнителя и зачем это нужно. Вас ждет краткий ликбез по управлению памятью в Apache Spark с описанием настраиваемых конфигураций. Также на простом практическом примере разберем, как это сделать и где в пользовательском веб-интерфейсе фреймворка посмотреть результаты...

15Сен
2021

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Анна Вичуговав категории Flink, Internet of Things, Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, Apache Kafka для разработчиков, потоковая обработка событий с Apache Kafka и Flink курсы обучение, обучение большим данным для разработчиков, курсы по Big Data, потоковая аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data в реальном производстве на примере телеметрии процессов ферментации продуктов в небольшой частной пивоварне. Постановка задачи: бизнес-контекст и используемые технологии В...

14Сен
2021

Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей. IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Завершая серию статей по IoT-платформе компании Tesla на базе Apache Kafka, сегодня рассмотрим проблемы пиковой загрузки системы и особенности обработки высокоприоритетных событий. Читайте далее, как оптимально определить ключ раздела, чтобы снизить затраты на передачу данных, избежать перегрузки в пиковые моменты и отделить пользователей данных от разработчиков и дата-инженеров. Тонкости обработки...

08Сен
2021

Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для дата-инженеров и разработчиков, Apache Kafka коннектор Alpakka и Akka Streams кейсы, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа БольшихДанных Учебный центр Коммерсант

Мы уже упоминали, что Apache Kafka не слишком хорошо обрабатывает сообщения чрезмерно большого размера. Сегодня рассмотрим, как эта проблема решается в конвейерах потоковой обработки IoT-инфраструктуры Tesla. Читайте далее про модификацию синтаксического анализатора данных от множества устройств интернета вещей с поиском компромисса между скоростью и надежностью с помощью коннектора Alpakka к...