Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

04Май
2020

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Автор Анна Вичуговав категории Greenplum, Hive, Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном...

03Май
2020

От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Автор Анна Вичуговав категории Greenplum, Hive, Use Cases, Блог, Цифровая трансформация

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу. Облака и банк: 3...

29Апр
2020

5 достоинств и 2 недостатка Data Vault для КХД и архитектора Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Hive, Data Vault, Data Warehouse, КХД, корпоративное хранилище данных, моделирование данных

В этой статье мы рассмотрим основные плюсы и минусы Data Vault – популярного подхода к моделированию сущностей при проектировании корпоративных хранилищ данных (КХД). Читайте сегодня, почему промежуточные базы перед витринами данных упрощают ETL-процессы, за счет чего обеспечивается отсутствие избыточности и как много таблиц могут усложнить жизнь архитектора Big Data. Чем...

28Апр
2020

ETL по Data Vault: решаем проблемы загрузки данных в КХД с помощью Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Data Vault

Продолжая разговор про проектирование корпоративных хранилищ данных с использованием подхода Data Vault, сегодня мы рассмотрим, как эта модель влияет на дизайн ETL-процессов и их реализацию. Читайте в нашей статье про загрузку данных в КХД по модели Data Vault и проблемы, которые могут при этом возникнуть, а также способы их решения...

26Апр
2020

Что такое Data Vault: моделирование КХД для архитектора Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH

Вчера мы рассмотрели, что такое Data Vault, почему возникла эта модель и чем она полезна при проектировании архитектуры корпоративных хранилищ данных (КХД) и озер данных (Data Lake). Сегодня разберем ключевые понятия Data Vault и поговорим про возможности Data Vault 2.0 для области больших данных (Big Data). Ключевые понятия Data Vault...

25Апр
2020

Как спроектировать КХД: 4 метода моделирования данных для архитектора Big Data

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, методы моделирования данных, моелирование данных, Data Vault, Data Warehouse, КХД, ERD, OLAP, OLTP, звезда, снежинка, DWH

Сегодня мы поговорим о проектировании архитектуры корпоративных хранилищ данных (КХД) и рассмотрим, какие методы и инструменты используются для моделирования структуры DWH и динамики ETL-процессов. В этой статье про основы Data Modelling разберем, что такое OLAP и OLTP, почему 3-я нормальная форма стала стандартом в SQL-СУБД, чем схемы звезды отличается от...

23Апр
2020

Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data

Автор Анна Вичуговав категории Hive, Machine Learning, Spark, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala, Spark, Machine Learning, машинное обучение, корпоративное хранилище данных, облачные вычисления, облачное КХД, Data warehouse, DWH

В продолжение темы про корпоративные хранилища данных, сегодня мы рассмотрим облачные варианты Data Warehouse с учетом тренда на расширенную аналитику Big Data на базе машинного обучения. Читайте в нашей статье про синергию классической LSA-архитектуры локального КХД с Лямбда-подходом, MPP-СУБД, а также Apache Hadoop, Spark, Hive и другими технологиями больших данных....

22Апр
2020

Не Hadoop’ом единым: что такое КХД и как его связать с Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Data Lake, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala

В этой статье мы расскажем, что такое корпоративное хранилище данных, зачем оно нужно и как устроено. Еще рассмотрим основные достоинства и недостатки Data Warehouse, а также чем оно отличается от озера данных (Data Lake) и как традиционная архитектура КХД может использоваться при работе с большими данными (Big Data). Где хранить...

20Апр
2020

BABOK, DMBOK и еще 3 профессиональных стандарта для Big Data специалиста

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, управление проектами, бизнес-процессы, цифровизация, цифровая трансформация, архитектура

Мы уже рассказывали про профессиональный стандарт бизнес-аналитика – руководство BABOK и его значимость в области больших данных. Сегодня рассмотрим еще 3 подобных свода знаний, которые полезны для архитектора, разработчика, менеджера, инженера, исследователя и аналитика Big Data: PMBOK, SWEBOK и DMBOK. А также разберем, что такое EABOK и насколько это применимо...

19Апр
2020

Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, ETL, Hadoop, Airflow, Spark, Kafka, Data Lineage, Data Provenance, Data Governance, Data Management

В этой статье мы продолжим разговор про основы управления данными и рассмотрим, что такое data provenance и data lineage, чем похожи и чем отличаются эти понятия. Также разберем, почему эти термины особенно важны для Big Data, какие инструменты помогают работать с ними, а также при чем здесь GDPR. Что такое...

17Апр
2020

Управление НСИ в эпоху Big Data: какой MDM нужен современному бизнесу

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

MDM, Master Data Management, Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Hadoop, Airflow

Управление данными не сводится к выделению роли дата стюарда и обеспечению Data Quality. Сегодня мы расскажем, что такое мастер-данные, как искусственный интеллект помогает решать проблемы управления НСИ и почему эффективный Master Data Management (MDM) особенно важен в мире Big Data. Что такое мастер-данные или зачем управлять НСИ Начнем с определения:...

16Апр
2020

Кто такой Data Steward: как организовать обеспечение Big Data Quality

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Data Stewardship, Data Governance, Data Management

Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему...

15Апр
2020

Когда количество не переходит в качество: почему большие данные требуют обеспечения Data Quality

Автор Анна Вичуговав категории Machine Learning, Блог, Цифровая трансформация

Data Management, Big Data, Большие данные, Spark, Airflow, машинное обучение, Machine Learning, обработка данных, ETL, Data Quality Assurance

Сегодня мы поговорим про качество данных – что это за показатель, в чем он измеряется и почему так важен для машинного обучения и других приложений Big Data. Читайте в нашей статье про процессы и инструменты управления качеством данных, а также профессию Data Quality инженера. Почему большие данные должны быть качественными...

16Мар
2020

Что такое Airflow Executor: 5 исполнителей задач и 2 их основных ограничения

Автор Анна Вичуговав категории AirFlow, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, Kubernetes, Docker, Spark, Kafka

Недавно мы рассказывали про Airflow Kubernetes Executor, который позволяет выполнять задачи DAG-графа Эйрфлоу в среде Kubernetes, развертывая Docker-контейнер на отдельном пользовательском модуле (pod). Сегодня рассмотрим, какие еще есть исполнители задач в Apache Airflow, как они используются при автоматизации batch-процессов обработки больших данных и с какими проблемами можно столкнуться при их...

15Мар
2020

AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker, Spark

Эффективное обучение AirFlow, также как курсы по Spark, Hadoop, Kafka и другим технологиям больших данных (Big Data) также включают нюансы интеграции этого фреймворка с другими средами. Например, вчера мы рассматривали преимущества DevOps-подхода к разработке Data Flow на примере взаимосвязи Apache Airflow с Kubernetes посредством специальных операторов. Продолжая эту тему, сегодня...

13Мар
2020

Что такое AirFlow Kubernetes Operator и как это работает: обзор решений от K8s и Google

Автор Анна Вичуговав категории AirFlow, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker

Вчера мы рассказали, почему запускать Airflow на Kubernetes – это эффективно и выгодно для всех участников batch-процессов с большими данными (Big Data): разработчиков Data Flow, Data Scientist’ов, аналитиков и инженеров. Сегодня рассмотрим, что такое Airflow Kubernetes Operator и чем он отличается от подобной разработки компании Google. Как работает AirFlow Kubernetes...

11Мар
2020

AirFlow на Kubernetes: DevOps-подход к автоматизации batch-процессов в Big Data

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, DevOps, Kubernetes, Docker

Чтобы обучение Airflow было максимально приближенным к практике, сегодня мы поговорим про особенности реального внедрения этого фреймворка для разработки, планирования и мониторинга пакетных процессов обработки больших данных (Big Data) с учетом современного DevOps-подхода. Читайте в нашей статье, зачем вообще нужна связка Apache Эйрфлоу с Kubernetes и как это реализовать технически....

10Мар
2020

7 достоинств и 5 недостатков Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, Spark, Hive, Hadoop

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow:...

09Мар
2020

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, ритейл, обработка данных, NiFi, AirFlow, ETL, Hadoop, Spark, Hive, AirFlow

В этой статье мы поговорим про Apache AirFlow - эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что...

23Дек
2019

Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Автор Анна Вичуговав категории HBase, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use...