Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

03Май
2020

От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Автор Анна Вичуговав категории Greenplum, Hive, Use Cases, Блог, Цифровая трансформация

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу. Облака и банк: 3...

29Апр
2020

5 достоинств и 2 недостатка Data Vault для КХД и архитектора Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Hive, Data Vault, Data Warehouse, КХД, корпоративное хранилище данных, моделирование данных

В этой статье мы рассмотрим основные плюсы и минусы Data Vault – популярного подхода к моделированию сущностей при проектировании корпоративных хранилищ данных (КХД). Читайте сегодня, почему промежуточные базы перед витринами данных упрощают ETL-процессы, за счет чего обеспечивается отсутствие избыточности и как много таблиц могут усложнить жизнь архитектора Big Data. Чем...

28Апр
2020

ETL по Data Vault: решаем проблемы загрузки данных в КХД с помощью Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Data Vault

Продолжая разговор про проектирование корпоративных хранилищ данных с использованием подхода Data Vault, сегодня мы рассмотрим, как эта модель влияет на дизайн ETL-процессов и их реализацию. Читайте в нашей статье про загрузку данных в КХД по модели Data Vault и проблемы, которые могут при этом возникнуть, а также способы их решения...

26Апр
2020

Что такое Data Vault: моделирование КХД для архитектора Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH

Вчера мы рассмотрели, что такое Data Vault, почему возникла эта модель и чем она полезна при проектировании архитектуры корпоративных хранилищ данных (КХД) и озер данных (Data Lake). Сегодня разберем ключевые понятия Data Vault и поговорим про возможности Data Vault 2.0 для области больших данных (Big Data). Ключевые понятия Data Vault...

25Апр
2020

Как спроектировать КХД: 4 метода моделирования данных для архитектора Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, методы моделирования данных, моелирование данных, Data Vault, Data Warehouse, КХД, ERD, OLAP, OLTP, звезда, снежинка, DWH

Сегодня мы поговорим о проектировании архитектуры корпоративных хранилищ данных (КХД) и рассмотрим, какие методы и инструменты используются для моделирования структуры DWH и динамики ETL-процессов. В этой статье про основы Data Modelling разберем, что такое OLAP и OLTP, почему 3-я нормальная форма стала стандартом в SQL-СУБД, чем схемы звезды отличается от...

23Апр
2020

Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data

Автор Анна Вичуговав категории Hive, Machine Learning, Spark, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala, Spark, Machine Learning, машинное обучение, корпоративное хранилище данных, облачные вычисления, облачное КХД, Data warehouse, DWH

В продолжение темы про корпоративные хранилища данных, сегодня мы рассмотрим облачные варианты Data Warehouse с учетом тренда на расширенную аналитику Big Data на базе машинного обучения. Читайте в нашей статье про синергию классической LSA-архитектуры локального КХД с Лямбда-подходом, MPP-СУБД, а также Apache Hadoop, Spark, Hive и другими технологиями больших данных....

22Апр
2020

Не Hadoop’ом единым: что такое КХД и как его связать с Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Data Lake, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala

В этой статье мы расскажем, что такое корпоративное хранилище данных, зачем оно нужно и как устроено. Еще рассмотрим основные достоинства и недостатки Data Warehouse, а также чем оно отличается от озера данных (Data Lake) и как традиционная архитектура КХД может использоваться при работе с большими данными (Big Data). Где хранить...

19Апр
2020

Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, ETL, Hadoop, Airflow, Spark, Kafka, Data Lineage, Data Provenance, Data Governance, Data Management

В этой статье мы продолжим разговор про основы управления данными и рассмотрим, что такое data provenance и data lineage, чем похожи и чем отличаются эти понятия. Также разберем, почему эти термины особенно важны для Big Data, какие инструменты помогают работать с ними, а также при чем здесь GDPR. Что такое...

17Апр
2020

Управление НСИ в эпоху Big Data: какой MDM нужен современному бизнесу

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

MDM, Master Data Management, Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Hadoop, Airflow

Управление данными не сводится к выделению роли дата стюарда и обеспечению Data Quality. Сегодня мы расскажем, что такое мастер-данные, как искусственный интеллект помогает решать проблемы управления НСИ и почему эффективный Master Data Management (MDM) особенно важен в мире Big Data. Что такое мастер-данные или зачем управлять НСИ Начнем с определения:...

11Апр
2020

Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Блог

Big Data, Большие данные, Kafka, архитектура, Spark, Hadoop, машинное обучение, Machine Learning, Каппа, Лямбда

Вчера мы рассказали, что такое лямбда-архитектура. Сегодня рассмотрим Каппа - альтернативный подход к проектированию Big Data систем. Читайте в нашей статье, зачем нужна эта концепция, каковы ее достоинства и недостатки, чем Каппа отличается от Лямбда, где это используется на практике и при чем тут Apache Kafka с Machine Learning. Зачем...