Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

13Мар
2020

Что такое AirFlow Kubernetes Operator и как это работает: обзор решений от K8s и Google

Автор Анна Вичуговав категории AirFlow, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker

Вчера мы рассказали, почему запускать Airflow на Kubernetes – это эффективно и выгодно для всех участников batch-процессов с большими данными (Big Data): разработчиков Data Flow, Data Scientist’ов, аналитиков и инженеров. Сегодня рассмотрим, что такое Airflow Kubernetes Operator и чем он отличается от подобной разработки компании Google. Как работает AirFlow Kubernetes...

11Мар
2020

AirFlow на Kubernetes: DevOps-подход к автоматизации batch-процессов в Big Data

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, DevOps, Kubernetes, Docker

Чтобы обучение Airflow было максимально приближенным к практике, сегодня мы поговорим про особенности реального внедрения этого фреймворка для разработки, планирования и мониторинга пакетных процессов обработки больших данных (Big Data) с учетом современного DevOps-подхода. Читайте в нашей статье, зачем вообще нужна связка Apache Эйрфлоу с Kubernetes и как это реализовать технически....

10Мар
2020

7 достоинств и 5 недостатков Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, Spark, Hive, Hadoop

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow:...

09Мар
2020

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, ритейл, обработка данных, NiFi, AirFlow, ETL, Hadoop, Spark, Hive, AirFlow

В этой статье мы поговорим про Apache AirFlow - эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что...

23Дек
2019

Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Автор Анна Вичуговав категории HBase, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use...

21Дек
2019

Apache Cassandra и HBase: конкуренты или альтернативы – 10 ключевых сходств и отличий

Автор Анна Вичуговав категории HBase, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop

Cassandra и HBase считаются наиболее популярными NoSQL-СУБД в мире Big Data. Сегодня мы поговорим, что между ними общего и чем отличаются эти нереляционные базы данных, сравнив их по 10 ключевым параметрам: от архитектуры до инструментальных средств. Что общего между Apache Cassandra и HBase: 5 главных сходств Прежде всего отметим, чем...

19Дек
2019

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать...

18Дек
2019

10 примеров применения Apache Cassandra в 5 направлениях Big Data

Автор Анна Вичуговав категории Internet of Things, Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Internet of Things, IoT, IIoT, интернет вещей, машинное обучение, Machine Learning, Spark

Благодаря быстроте, надежности и другим достоинствам Apache Cassandra, эта распределенная NoSQL-СУБД широко применяется во многих Big Data проектах по всему миру. В этой статье мы собрали для вас несколько интересных примеров реального использования Кассандры в 5 ключевых направлениях современного ИТ. Где используется Apache Cassandra: 5 главных приложений c примерами Промышленные...

17Дек
2019

Как работает Apache Cassandra: запись, чтение и другие операции с Big Data в распределенной NoSQL-СУБД

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase

В прошлой статье мы разобрали, как настраиваемые уровни согласованности влияют на скорость работы с данными в Apache Cassandra. Сегодня поговорим, как в этой нереляционной базе данных выполняются операции записи, чтения, уплотнения и удаления. Читайте в нашей статье, что такое memTable, SSTable и Bloom-фильтр, благодаря которым рассматриваемая распределенная NoSQL-СУБД может обработать...

16Дек
2019

Раз-два-много: уровни согласованности Apache Cassandra при распределенной обработке Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra

Как мы уже отмечали, одним из преимуществ Кассандры является возможность задания уровня согласованности для операций чтения и записи данных. В этой статье рассмотрим, какие бывают уровни согласованности для этих процессов в Apache Cassandra, и как они влияют на скорость работы распределенной NoSQL-СУБД при ее эксплуатации в реальных Big Data проектах....