Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

01Янв
2022

Apache Airflow vs Beam: сходства и отличия

Автор Анна Вичуговав категории AirFlow, Beam, Блог

Beam DAG AirFlow, обучение AirFlow, курсы AirFlow, примеры AirFlow курсы обучение дата-инженеров, AirFlow vs Beam, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье по обучению дата-инженеров разберем, что такое Apache Beam, чем этот фреймворк отличается от AirFlow и что между ними общего. На первый взгляд Apache Airflow и Beam являются конкурентами: они предназначены для организации процессов обработки данных в определенном порядке. Оба инструмента являются open-source проектами, широко используются и поддерживаются...

30Дек
2021

Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark, Apache Spark для разработчиков и дата-инженеров, администрирование Apache Spark, обучение большим данным, локальность данных в Apache Spark, Apache Spark data locality, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. В этой статье команда разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений. Предыстория: слишком много файлов в ETL-решении на Spark и AWS S3 в...

21Дек
2021

Управление зависимостями между конвейерами данных в Apache Airflow и Prefect

Автор Анна Вичуговав категории AirFlow, Блог

DAG AirFlow, обучение AirFlow, курсы AirFlow, примеры AirFlow курсы обучение дата-инженеров, AirFlow vs Prefect, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Дополняя наши курсы для дата-инженеров по Apache AirFlow полезными примерами, сегодня поговорим про сложности управления зависимыми конвейерами данных в этом batch-оркестраторе. Как решить проблемы связанных DAG’ов в AirFlow и в альтернативном фреймворке Prefect. Все сложно: управление зависимыми DAG в Apache Airflow Apache AirFlow считается одним из самых популярных инструментов современной...

07Дек
2021

Управление жизненным циклом конвейеров Apache Airflow: советы дата-инженеров Databand

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение AirFlow, курсы Apache AirFlow, курсы инженеров данных, инженерия данных обучение, дата-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы для дата-инженеров по Apache AirFlow, сегодня рассмотрим, как автоматизировать развертывание сложных DAG’ов с помощью Docker и Kubernetes на примере управления конвейерами обработки данных. Лучшие практики и советы от инженеров данных DataOps-компании Databand. 4 вопроса дата-инженера к production-развертыванию конвейеров Apache Airflow Apache AirFlow считается одним из самых популярных...

04Дек
2021

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi новый релиз, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров до интеграции процессоров с пользователями Kerberos и улучшения работы с GitHub. Новинки и улучшения Apache NiFi 1.15.0 Свежий выпуск Apache...

27Ноя
2021

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение дата-инженеров, AirFlow курсы примеры обучение, Apache AirFlow для инженеров данных, Smart Sensor AirFlow примеры польза. обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных. Что такое Smart Sensor и как умные датчики экономят ресурсы на выполнение долгосрочных легковесных задач. Легкие, долгие и ресурсоемкие: проблемы...

26Ноя
2021

Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi Doсker Kubernetes, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как организовать полностью сохраняемый сервис Apache NiFi с помощью Docker, чтобы обеспечить безопасность конвейеров и потоков данных при изменении конфигураций и перезапуске служб. А также разберем, как дата-инженеру и администратору кластера NiFi запустить его на Kubernetes. Проблемы масштабирования и отказоустойчивости Apache NiFi Благодаря наличию веб-GUI, множеству готовых процессоров...

16Ноя
2021

Комбо Apache Airflow и NiFi для запланированного запуска ETL-конвейеров: практическая инженерия Big Data

Автор Анна Вичуговав категории AirFlow, NiFi, Блог

интеграция Apache NiFi и AirFlow, курсы дата-инженеров Apache NiFi и AirFlow, обучение Apache NiFi AirFlow примеры, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более полезными, сегодня рассмотрим, как объединить Apache NiFi и Airflow в рамках одного ETL-конвейера обработки данных. Читайте далее, зачем совмещать эти технологии и как сделать это наиболее эффективно, обращаясь к конечным точкам REST API процессоров NiFi из задач DAG-графа AirFlow. Apache Airflow +...

11Ноя
2021

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, курсы Data Science, курсы Machine Learning, машинное обучение курсы примеры, AirFlow Ray примеры, обучение большим данным для инженеров и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте далее про кластерное развертывание Python-кода ML-моделей и упрощение ETL-процессов с Apache Airflow и Ray. Apache AirFlow для ML: возможности и...

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...