Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

28Апр
2020

ETL по Data Vault: решаем проблемы загрузки данных в КХД с помощью Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Data Vault

Продолжая разговор про проектирование корпоративных хранилищ данных с использованием подхода Data Vault, сегодня мы рассмотрим, как эта модель влияет на дизайн ETL-процессов и их реализацию. Читайте в нашей статье про загрузку данных в КХД по модели Data Vault и проблемы, которые могут при этом возникнуть, а также способы их решения...

26Апр
2020

Что такое Data Vault: моделирование КХД для архитектора Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH

Вчера мы рассмотрели, что такое Data Vault, почему возникла эта модель и чем она полезна при проектировании архитектуры корпоративных хранилищ данных (КХД) и озер данных (Data Lake). Сегодня разберем ключевые понятия Data Vault и поговорим про возможности Data Vault 2.0 для области больших данных (Big Data). Ключевые понятия Data Vault...

25Апр
2020

Как спроектировать КХД: 4 метода моделирования данных для архитектора Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, методы моделирования данных, моелирование данных, Data Vault, Data Warehouse, КХД, ERD, OLAP, OLTP, звезда, снежинка, DWH

Сегодня мы поговорим о проектировании архитектуры корпоративных хранилищ данных (КХД) и рассмотрим, какие методы и инструменты используются для моделирования структуры DWH и динамики ETL-процессов. В этой статье про основы Data Modelling разберем, что такое OLAP и OLTP, почему 3-я нормальная форма стала стандартом в SQL-СУБД, чем схемы звезды отличается от...

23Апр
2020

Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data

Автор Анна Вичуговав категории Hive, Machine Learning, Spark, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala, Spark, Machine Learning, машинное обучение, корпоративное хранилище данных, облачные вычисления, облачное КХД, Data warehouse, DWH

В продолжение темы про корпоративные хранилища данных, сегодня мы рассмотрим облачные варианты Data Warehouse с учетом тренда на расширенную аналитику Big Data на базе машинного обучения. Читайте в нашей статье про синергию классической LSA-архитектуры локального КХД с Лямбда-подходом, MPP-СУБД, а также Apache Hadoop, Spark, Hive и другими технологиями больших данных....

22Апр
2020

Не Hadoop’ом единым: что такое КХД и как его связать с Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Data Lake, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala

В этой статье мы расскажем, что такое корпоративное хранилище данных, зачем оно нужно и как устроено. Еще рассмотрим основные достоинства и недостатки Data Warehouse, а также чем оно отличается от озера данных (Data Lake) и как традиционная архитектура КХД может использоваться при работе с большими данными (Big Data). Где хранить...

20Апр
2020

BABOK, DMBOK и еще 3 профессиональных стандарта для Big Data специалиста

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, управление проектами, бизнес-процессы, цифровизация, цифровая трансформация, архитектура

Мы уже рассказывали про профессиональный стандарт бизнес-аналитика – руководство BABOK и его значимость в области больших данных. Сегодня рассмотрим еще 3 подобных свода знаний, которые полезны для архитектора, разработчика, менеджера, инженера, исследователя и аналитика Big Data: PMBOK, SWEBOK и DMBOK. А также разберем, что такое EABOK и насколько это применимо...

11Апр
2020

Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Блог

Big Data, Большие данные, Kafka, архитектура, Spark, Hadoop, машинное обучение, Machine Learning, Каппа, Лямбда

Вчера мы рассказали, что такое лямбда-архитектура. Сегодня рассмотрим Каппа - альтернативный подход к проектированию Big Data систем. Читайте в нашей статье, зачем нужна эта концепция, каковы ее достоинства и недостатки, чем Каппа отличается от Лямбда, где это используется на практике и при чем тут Apache Kafka с Machine Learning. Зачем...

10Апр
2020

Что такое лямбда-архитектура: основы Big Data для начинающих

Автор Анна Вичуговав категории Internet of Things, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, Spark, Hadoop, машинное обучение, интернет вещей, Internet of Things, IoT, IIoT, Machine Learning, лямбда-архитектура

Рассматривая основы больших данных, сегодня мы расскажем лямбда-архитектуру, одну из двух главных подходов к построению Big Data систем. Читайте в нашей статье, зачем нужна эта концепция и как она работает, а также при чем тут машинное обучение, интернет вещей, Apache Spark и Hadoop. Что такое Лямбда-архитектура и зачем она нужна...

16Мар
2020

Что такое Airflow Executor: 5 исполнителей задач и 2 их основных ограничения

Автор Анна Вичуговав категории AirFlow, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, Kubernetes, Docker, Spark, Kafka

Недавно мы рассказывали про Airflow Kubernetes Executor, который позволяет выполнять задачи DAG-графа Эйрфлоу в среде Kubernetes, развертывая Docker-контейнер на отдельном пользовательском модуле (pod). Сегодня рассмотрим, какие еще есть исполнители задач в Apache Airflow, как они используются при автоматизации batch-процессов обработки больших данных и с какими проблемами можно столкнуться при их...

15Мар
2020

AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker, Spark

Эффективное обучение AirFlow, также как курсы по Spark, Hadoop, Kafka и другим технологиям больших данных (Big Data) также включают нюансы интеграции этого фреймворка с другими средами. Например, вчера мы рассматривали преимущества DevOps-подхода к разработке Data Flow на примере взаимосвязи Apache Airflow с Kubernetes посредством специальных операторов. Продолжая эту тему, сегодня...