DWH + Data Lake или что такое LakeHouse

архитектура данных примеры курсы обучение, Data Lake DWh LakeHouse примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения дата-инженеров и архитекторов корпоративных платформ и приложений аналитики больших данных, сегодня рассмотрим, что такое LakeHouse. Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты.

Историческая справка: от DWH к Data Lake

Корпоративные хранилища данных (DWH, Data WareHouse) имеют долгую историю использования в приложениях поддержки принятия решений и бизнес-аналитики. С момента своего появления в конце 1980-х годов технология хранилищ данных продолжала развиваться. Архитектура массивно-параллельной обработки данных, на которой основана MPP-СУБД Greenplum, привела к созданию систем, способных обрабатывать большие объемы данных. Хотя хранилища отлично подходили для структурированных данных, современному бизнесу приходится иметь дело с неструктурированными и полуструктурированными данными, которые отличаются большим разнообразием, скоростью и объемом. Традиционное DWH не очень подходит для таких сценариев использования, в т.ч. с экономической точки зрения.

Для хранения хранения данных из множества различных источников для разных аналитических продуктов и рабочих нагрузок в начале 2010-хх гг. дата-архитекторы начали создавать озера данных. Озеро данных (Data Lake) – это хранилище необработанных данных в различных форматах. Хотя озера данных отлично подходят для хранения, им не хватает некоторых важных функций, таких как поддержка транзакций и обеспечение качества данных.  А отсутствие согласованности и изоляции делает практически невозможным смешивание операций добавления и чтения, а также пакетных и потоковых заданий. Поэтому потребность в гибкой, высокопроизводительной системе не уменьшилась: бизнесу требовались хранилища для различных приложений, включая аналитику через SQL-запросы, мониторинг в реальном времени, машинное обучение и другие возможности Data Science. В частности, многие приложения искусственного интеллекта связаны с улучшением моделей обработки неструктурированных данных (текст, изображения, видео, аудио). Но именно эти типы данных не имеют четкой структуры, на которую ориентировано традиционное DWH. Чтобы совместить возможности озер и хранилищ данных со специфическими СУБД, оптимизированными для потоковой обработки, аналитики временных рядов, графов и пр., компании разворачивали их все в своей локальной или облачной инфраструктуре. Но подобный зоопарк систем усложняет владение данными и приводит к задержкам их обработки, т.к. дата-инженерам нужно строить и поддерживать ETL-конвейеры для перемещения или копирования данных между различными платформами.

Поэтому в начале 2020 года появилась новая модель гибридной архитектуры данных, которая стремится объединить достоинства классических DWH с гибкостью Data Lake. Эта архитектура управления данными получила название LakeHouse и отлично коррелирует с идеями цифровой трансформации. Что она из себя представляет и какие возможности предоставляет, мы рассмотрим далее.

Что такое LakeHouse

Lakehouse — это новая открытая архитектура, сочетающая в себе лучшие элементы озер и хранилищ данных. Lakehouses стали возможными благодаря новому дизайну системы: реализации структур данных и функций управления данными, аналогичных тем, которые используются в хранилище данных, непосредственно поверх недорогого облачного хранилища в открытых форматах. LakeHouse имеет следующие основные особенности:

  • поддержка транзакций — конвейеры данных способны одновременно считывать и записывать данные. Поддержка ACID-транзакций обеспечивает согласованность, поскольку несколько сторон одновременно считывают или записывают данные, обычно используя популярный инструментарий SQL-запросов.
  • принудительное применение и управление схемой, включая поддержку классических моделей DWH, такие как схемы звезды и снежинки, с обеспечением целостности и полноты данных, а также надежные механизмы управления и аудита.
  • совместимость с BI — Lakehouse позволяет использовать инструменты бизнес-аналитики непосредственно в исходных данных, повышая их актуальность, а также уменьшая задержку и затраты, связанные с необходимостью выполнения операций над двумя копиями данных как в озере данных, так и в хранилище.
  • изоляция хранения от вычислений по разным кластерам, что облегчает масштабирование для большего количества одновременных пользователей и объемов данных.
  • открытость стандартизованных форматов хранения данных, таких как Apache Parquet или Iceberg, которые предоставляют API, поэтому различные инструменты и механизмы, включая ML-системы и библиотеки Python/R, могут эффективно обращаться к данным напрямую.
  • многообразие различных типов данных, от неструктурированных до структурированных. Lakehouse можно использовать для хранения, уточнения, анализа и доступа к разным типам данных, включая изображения, видео, аудио, JSON-структуры и текст.
  • поддержка разнообразных рабочих нагрузок, от алгоритмов машинного обучения до SQL-запросов и распределенных вычислений – хотя все эти рабочие нагрузки требуют разных технологий реализации, все они полагаются на один и тот же репозиторий данных.
  • сквозная потоковая передача событий в режиме реального времени, что устраняет необходимость в отдельных streaming-системах.

Помимо вышеотмеченных возможностей Lakehouse, для корпоративных систем также требуются средства обеспечения безопасности и контроля доступа, включая аудит, хранение, мониторинг происхождения и поддержка наблюдаемости, в т.ч. каталоги данных и показатели их использования. В отличие от классических DWH, которые ориентированы на BI-инструменты, парадигму LakeHouse можно назвать AI-центричной. Потенциально Lakehouse дает более гибкие и широкие возможности, но из-за этого является менее управляемым по сравнению с Data Warehouse.

LakeHouse DWH Data Lake, архитектура данных
LakeHouse: гибрид DWH и Data Lake

Можно сказать, что переход к гибридной архитектуре позволит унифицировать источники данных, включая хранилища и озера, в масштабе всей организации, обеспечивая получение непротиворечивой отчетности и аналитики для разных бизнес-вертикалей. Именно этого ожидает от технологий Big Data цифровизация современного бизнеса. Lakehouse расширяет традиционную аналитику данных, совмещая гибкость озер с четкой структурой хранилищ. Структурированные данные можно обрабатывать с помощью SQL-запросов, которыми владеет каждый аналитик, от продуктового до бизнес-аналитика. Однако, гибридная архитектура LakeHouse пока находится на уровне концепции и формирования инструментария. Поэтому говорить о закате реляционных DWH и NoSQL-хранилищ Data Lake еще преждевременно. Кроме того, если новая гибридная архитектура будет иметь эффективные технологии реализации, она еще более усилит позиции и возможности классических DWH в корпоративном ИТ-ландшафте, сочетая согласованность и надежность отчетных данных с гибкостью аналитики и ML. Как эта архитектура меняет подходы к построению конвейеров обработки данных, читайте в нашей новой статье. А здесь вы узнаете про эволюцию этого подхода под названием Streamhouse.

Читайте в нашей следующей статье про архитектурные принципы и инструментальные средства LakeHouse. А как внедрить современные архитектурные модели в свои ИТ-проекты аналитики больших данных, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://rpradeepmenon.medium.com/making-data-lakehouse-real-yet-effective-f09e84fae0fa
  2. https://www.itweek.ru/bigdata/article/detail.php?ID=221989
  3. https://www.snowflake.com/guides/what-data-lakehouse
Поиск по сайту