Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

19Дек
2020

10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

Автор Анна Вичуговав категории AirFlow, Hive, Kafka, Machine Learning, Spark, Use Cases, Блог, Тесты

курсы по большим данным, обучение Data Science, обучение Big Data, Big Data и Machine Learning для начинающих, основы Big Data, основы больших данных

Чтобы сделать самостоятельное обучение технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам простой интерактивный тест по основам больших данных, включая администрирование кластеров, инженерию конвейеров и архитектуру, а также Data Science и Machine Learning. Тест по основам больших данных для новичков В продолжение темы,...

24Ноя
2020

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache...

12Ноя
2020

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Hive, Блог

Apache Luigi vs AirFlow, курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, DataOps, Python, , ETL

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных. В этой статье мы собрали для вас сходства и отличия Apache AirFlow и Luigi, а также их достоинства и недостатки,...

11Ноя
2020

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Machine Learning, Use Cases, Блог

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации...

05Ноя
2020

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data...

03Ноя
2020

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Apache AirFlow, обучение инженеров данных, обучение Apache AirFlow, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании решили проблему роста накладных расходов, отделив бизнес-логику от логики оркестрации в конвейерах Spark-заданий. Читайте далее про принципы проектирования Big Data...

02Ноя
2020

Почему ваш Big Data Pipeline такой медленный: 5 причин роста накладных расходов на примере использования Apache AirFlow в Airbnb

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Airflow, обучение Airflow, курсы по по инженерии больших данных, обучение инженеров данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, ETL, Spark, Hadoop

Продолжая разговор про конвейеры обработки больших данных, сегодня рассмотрим пример использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Читайте далее, в чем коварство накладных расходов при росте ETL-операций и других data pipeline’ов по запуску и выполнению заданий Spark, Hadoop и прочих технологий Big Data. Еще в этой статье разберем,...

07Окт
2020

Как не наступить на 10 главных граблей Apache Airflow в production: разбираемся на практических примерах

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование

Мы уже рассказывали про основные достоинства и недостатки Apache Airflow, с которыми чаще всего можно столкнуться при практическом использовании этого оркестратора конвейеров обработки больших данных (Big Data). Сегодня рассмотрим некоторые специфические ограничения, характерные для этой open-source платформы и способы решения этих проблем на реальных примерах. Все по плану: 5 особенностей...

08Сен
2020

Что под капотом Apache Livy: принципы и особенности работы со Spark

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

AirFlow, Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security

Вчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy, а также за счет чего этот гибкий API обеспечивает удобство работы с Python-кодом и общие Spark Context’ы для разных операторов...

07Сен
2020

Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Автор Анна Вичуговав категории AirFlow, Internet of Things, Spark, Use Cases, Блог

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и...