Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

05Фев
2021

Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Автор Анна Вичуговав категории AirFlow, Spark, Блог

курсы Hadoop для инженеров данных, обучение дата-инженеров, инженер Big Data обучние, курсы Spark, курсы Airflow, курсы Hadoop, обучение Spark, обучение Airflow, обучение Hadoop, Hadoop для инженеров данных

Поскольку курсы инженеров Big Data предполагают практическое обучение на реальных кейсах, сегодня поговорим про тестирование конвейеров обработки и аналитики больших данных и разберем несколько прикладных примеров для компонентов экосистемы Apache Hadoop. Читайте далее про проверку работоспособности, а также поиск ошибок в Spark-заданиях и DAG-цепочках Airflow. Конвейер для конвейера: сложности тестирования...

10Янв
2021

Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности миграции и как их решить. Читайте далее про сохранение кастомизированных настроек, тонкости работы с базой метаданных и конфигурацию для развертывания...

09Янв
2021

Apache AirFlow 2.0: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

В конце 2020 года вышел мажорный релиз Apache AirFlow, основные фишки которого мы рассмотрим в этой статье. Читайте далее про 10 главных обновлений Apache AirFlow 2.0, благодаря которым этот DataOps-инструмент для пакетных заданий обработки Big Data стал еще лучше. 10 главных обновлений Apache AirFlow 2.0 Напомним, разработанный в 2014 году...

19Дек
2020

10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

Автор Анна Вичуговав категории AirFlow, Hive, Kafka, Machine Learning, Spark, Use Cases, Блог, Тесты

курсы по большим данным, обучение Data Science, обучение Big Data, Big Data и Machine Learning для начинающих, основы Big Data, основы больших данных

Чтобы сделать самостоятельное обучение технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам простой интерактивный тест по основам больших данных, включая администрирование кластеров, инженерию конвейеров и архитектуру, а также Data Science и Machine Learning. Тест по основам больших данных для новичков В продолжение темы,...

24Ноя
2020

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache...

12Ноя
2020

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Hive, Блог

Apache Luigi vs AirFlow, курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, DataOps, Python, , ETL

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных. В этой статье мы собрали для вас сходства и отличия Apache AirFlow и Luigi, а также их достоинства и недостатки,...

11Ноя
2020

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Machine Learning, Use Cases, Блог

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации...

03Ноя
2020

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Apache AirFlow, обучение инженеров данных, обучение Apache AirFlow, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании решили проблему роста накладных расходов, отделив бизнес-логику от логики оркестрации в конвейерах Spark-заданий. Читайте далее про принципы проектирования Big Data...

02Ноя
2020

Почему ваш Big Data Pipeline такой медленный: 5 причин роста накладных расходов на примере использования Apache AirFlow в Airbnb

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Airflow, обучение Airflow, курсы по по инженерии больших данных, обучение инженеров данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, ETL, Spark, Hadoop

Продолжая разговор про конвейеры обработки больших данных, сегодня рассмотрим пример использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Читайте далее, в чем коварство накладных расходов при росте ETL-операций и других data pipeline’ов по запуску и выполнению заданий Spark, Hadoop и прочих технологий Big Data. Еще в этой статье разберем,...

07Окт
2020

Как не наступить на 10 главных граблей Apache Airflow в production: разбираемся на практических примерах

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование

Мы уже рассказывали про основные достоинства и недостатки Apache Airflow, с которыми чаще всего можно столкнуться при практическом использовании этого оркестратора конвейеров обработки больших данных (Big Data). Сегодня рассмотрим некоторые специфические ограничения, характерные для этой open-source платформы и способы решения этих проблем на реальных примерах. Все по плану: 5 особенностей...