Публикации с меткой DWH

09Окт
2025

Data Warehousing and Business Intelligence. От данных к инсайтам для бизнеса

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Блог, Статьи

Business Intelligence — это не отчеты. Это компас для вашего бизнеса Представьте себя капитаном большого корабля в открытом море во время шторма. Как вы будете прокладывать курс? Полагаясь на интуицию и старые карты, нарисованные от руки? Возможно, вам повезет. Но скорее всего, вы налетите на рифы или заблудитесь. А теперь...

09Сен
2025

Data Modeling and Design. От концепции к физической реализации в Big Data

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Статьи

Традиционный спор Инмона и Кимбаларавнение подходов Инмона и Кимбалла (схема "звезда")

Модель данных — язык, на котором бизнес говорит с технологиями Есть старая айтишная мудрость: "Написать код легко. Гораздо сложнее написать правильный код для правильной модели данных". И это абсолютная правда. Любую ошибку в коде можно исправить относительно безболезненно. А вот ошибка, заложенная в саму структуру данных, в модель, обходится...

01Май
2025

Управление метаданными в корпоративной платформе данных

Автор Анна Вичуговав категории Статьи

Архитектура данных курсы примеры обучение, хранилище данных для разработчика, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем нужен каталог метаданных и как он работает: построение платформы данных и управление метаданными по DAMA DMBOK. Unity Catalog и другие решения для учета источников данных и непрерывного обеспечения их актуальности. Управление метаданными по DMBOK Методологически создание и внедрение платформ данных основано на положениях DAMA DMBOK – своде знаний по...

25Апр
2025

StarRocks vs Trino: что и когда выбирать

Автор Анна Вичуговав категории Trino

Trino примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что общего у StarRocks с Trino, чем они отличаются, когда и что выбирать для практического использования: сравниваем движки для быстрой аналитики больших данных из Data Lake. Чем похожи StarRocks и Trino Вчера мы разбирали, что такое StarRocks, как устроена и где пригодится эта высокопроизводительная аналитическая база данных с открытым исходным...

24Апр
2025

Не только Clickhouse: StarRocks для аналитики больших данных в реальном времени

Автор Анна Вичуговав категории NoSql

Вместо Trino и ClickHouse: что такое StarRocks и как оно устроено, архитектура и принципы работы, сценарии использования и место в корпоративной архитектуре данных. Архитектура и принципы работы StarRocks Хотя ClickHouse сегодня считается одним из наиболее популярных колоночных хранилищ для аналитики больших объемов данных в реальном времени, это не единственный представитель...

30Мар
2025

Что такое HTAP: гибридная транзакционно-аналитическая обработка

Автор Анна Вичуговав категории Статьи

Можно ли сочетать OLAP и OLTP-нагрузки в едином хранилище и как это сделать: гибридная транзакционно-аналитическая обработка в базах данных, возможности и проблемы этой архитектуры. Что такое HTAP Исторически хранилища данных принято делить на OLAP и OLTP с учетом их оптимизации для аналитических и транзакционных нагрузок. OLTP-системы (Online Transaction Processing) оптимизированы...

26Мар
2025

Несогласованность в хранилищах и озерах данных: найти и обезвредить

Автор Анна Вичуговав категории Статьи

Архитектура данных курсы примеры обучение, хранилище данных качество для разработчика, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных. Что такое data silos и как найти локальные «болота данных» Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные...

20Янв
2025

ClickHouse vs Apache Doris: что выбрать для хранилища данных

Автор Анна Вичуговав категории ClickHouse

построение хранилища данных курсы, архитектура данных курс, ClickHouse DWH примеры курсы обучение, ClickHouse vs Doris

Что такое Apache Doris, как его использовать для построения хранилища данных и чем это отличается от ClickHouse. Сценарии применения и критерии выбора основы DWH. Что такое Apache Doris Недавно мы рассматривали, почему ClickHouse подходит для реализации хранилища данных на основе эталонной архитектуры Medallion благодаря поддержке более 70 форматов файлов, материализованным...

09Янв
2025

Реализация архитектуры Medallion в ClickHouse

Автор Анна Вичуговав категории ClickHouse

архитектура данных курсы, ClickHouse примеры курсы обучение, ClickHouse Школа Больших Данных

Почему ClickHouse подходит для архитектуры данных Medallion и как реализовать это слоистое хранилище средствами колоночной СУБД без сторонних инструментов: лучшие практики и примеры использования. 3 слоя архитектуры данных Medallion Слоистая архитектура, предложенная компанией Databricks, сегодня считается классикой для построения озер и хранилищ данных. Она предполагает реализацию 3-х уровней (слоев): Бронза,...

11Дек
2024

Trino vs dbt: что и когда использовать

Автор Анна Вичуговав категории Trino

Trino курсы примеры обучение, Trino для разработчика, Trino примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что общего между Trino и dbt, чем они отличаются и в каких случаях выбирать тот или иной инструмент для инженерии и анализа данных. Краткий ликбез для начинающего дата-инженера и аналитика. Сходства и отличия Trino и dbt Trino и dbt (Data Build Tool) — это два популярных инструмента с открытым исходным...

09Дек
2024

Как наполнить Data LakeHouse данными из Apache Kafka с помощью Tableflow

Автор Анна Вичуговав категории Kafka

Data LakeHouse, архитектура данных, iceberg, Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что не так с классическими ETL/ELT-конвейерами транзакционных и аналитических систем в гибридное хранилище LakeHouse, и как дата-инженеры платформы Confluent хотят решить эти проблемы с помощью Tableflow, передавая события из Kafka в таблицы Iceberg. Очередная попытка унификации пакетной и потоковой парадигмы Чтобы обеспечивать потребности современного бизнеса в пакетной и потоковой аналитике,...

23Мар
2024

Проектирование raw-слоя DWH для последующего преобразования в Data Vault

Автор Анна Вичуговав категории AirFlow, Greenplum

DWH Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как определить структуру Raw-слоя корпоративного хранилища данных: пример проектирования и DDL-скрипт для кейса электронной коммерции, выбор компонентов решения для архитектуры данных. Постановка задачи: анализ систем-источников Сегодня корпоративные хранилища данных (DWH, Data Warehouse) обычно реализуются в виде нескольких баз данных, связанных ETL-процессами. Причем каждая из этих гомогенных или гетерогенных, т.е. на...

21Мар
2024

5 шагов проектирования DWH с подходом Data Vault: практический пример

Автор Анна Вичуговав категории Greenplum

Data Vault Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как построить хранилище данных с подходом Data Vault: пример проектирования схемы данных и разработка DDL-скрипта для Transformed-слоя DWH интернет-магазина. Слоистая структура DWH и подход Data Vault Корпоративное хранилище данных (DWH, Data Warehouse) часто бывает гетерогенным, т.к. организованным с помощью нескольких баз данных, связанных ETL-процессами. Согласно концепции слоистой архитектуры (LSA, Layered...

20Мар
2024

Состояние гонки в ETL-конвейерах: как дата-инженеру избежать коллизий данных

Автор Анна Вичуговав категории AirFlow

управление конвейерами обработки данных, дата-инженерия, курсы для дата-инженеров, инженер Big Data, Школа Больших Данных

Что такое гонка данных, почему она опасна в ETL-заданиях и как ее избежать: зачем разделять задания репликации в RAW-слой хранилища от их преобразования и сохранения в Transformed-слое DWH перед созданием витрин данных для BI-приложений. Что такое гонка данных в дата-инженерии Одна из главных особенностей распределенных систем – это задержка между...

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...

21Дек
2023

Еще одна архитектура данных: Streamhouse с Apache Paimon

Автор Анна Вичуговав категории Flink

архитектура данных, Streamhouse Apache Flink Paimon, DWH Data Lake Delta Lake архитектура хранилища данных, обучение дата-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Что не так с архитектурой данных Lakehouse, зачем разработчики Apache Flink создали на основе табличного хранилища новую дата-платформу, чем хорош подход Streamhouse и как устроен Apache Paimon. Что такое архитектура данных Streamhouse Не успели дата-архитекторы освоиться с Lakehouse – архитектурой данных, которая объединяет преимущества хранилищ и озер данных, комбинируя масштабируемость...

14Дек
2023

Проектирование хранилища данных с методологией Data Vault в архитектуре Lakehouse

Автор Анна Вичуговав категории NoSql, Блог

Data Vault Lakehouse архитектура данных проектирование, курсы архитектор DWH, обучение архитектор DWH, Data Vault Lakehouse примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Преимущества методологии Data Vault для проектирования архитектуры данных Lakehouse, а также лучшие практики ее использования с максимальной эффективностью для корпоративного хранилища. Принципы методологии Data Vault и их применение к проектированию DWH Существует множество различных методологий проектирования данных, которые можно использовать при разработке аналитической системы, например, модели звезды и снежинки, подходы...

19Ноя
2023

Отметки времени событий для безопасности архитектуры данных Lakehouse

Автор Анна Вичуговав категории Spark, Блог

архитектура данных, ETL время события, отметки времени DWH Data Lake, Школа Больших данных учебный центр Коммерсант

Как отметки времени о событиях в архитектуре данных Lakehouse позволяют обеспечить безопасность Delta Lake: примеры извлечения и преобразования, а также лучшие практики. Почему отметки времени в логах системных событий так важны для архитектуры больших данных Архитектура Lakehouse построена на открытых стандартах и API, которые позволяют сочетать ACID-транзакции и управление данными...

29Окт
2023

Кэширование в Databricks SQL

Автор Анна Вичуговав категории Блог, Статьи

Databricks SQL, DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Что такое Databricks SQL и как его ускорить, используя кэширование данных: типы хранилищ данных в платформе Lakehouse и виды кэшей. Что такое Databricks SQL Платформа Databricks Lakehouse предоставляет комплексное решение для хранения данных. Она построена на открытых стандартах и API. Эта архитектура данных сочетает ACID-транзакции и управление данными корпоративных хранилищ...

08Окт
2023

ТОП-5 советов по эффективному управлению данными в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

повышение эффективности Greenplum, ускорение SQL-запросов в Greenplum, архитектура данных Greenplum, тонкая настройка базы данных Greenplum, Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Как выбирать политики распределения и разделения данных в Greenplum, в чем польза динамического сканирования индексов, зачем регулярно использовать операции VACUUM и ANALYZE, из-за чего тормозят SQL-запросы и как это исправить. Эффективное распределение и разделение Будучи основанной на PostgreSQL, Greenplum расширяет возможности этой замечательной СУБД, добавляя операции с массово-параллельной обработкой. Для...