Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски.
7 преимуществ развертывания Data Lake в облаке
При том, что Data Lake уже не самая новая архитектура данных, о чем мы недавно писали, она до сих пор активно используется во многих предприятиях, позволяя организовать наглядные дэшборды с важными бизнес-показателями и системы машинного обучения из «сырых данных». Современное озеро данных представляет собой не просто масштабируемое и надежное хранилище, но и механизмы для сбора и организации данных, а также инструменты для их обработки и анализа. Облачные решения отлично подходят для озер данных, предоставляя неограниченные ресурсы сразу по запросу – организации платят только за то, что используют. Это позволяет динамически поддерживать любое количество пользователей и рабочих нагрузок без ущерба производительности. Кроме того, облачная сервисы и инфраструктура экономят средства, позволяя избежать дорогостоящих предварительных инвестиций в оборудование, программное обеспечение и другую инфраструктуру, а также затрат на обслуживание, обновление и обеспечение безопасности по сравнению с локальными решениями.
Таким образом, ключевыми преимуществами развертывания Data Lake в облаке становятся следующие:
- расширенная аналитика — озеро данных позволяет анализировать одни и те же данные разными способами для разных вариантов использования. А облачная экосистема не требует переноса данных и сопутствующих накладных расходов, затрат, усилий или задержек.
- разнообразие структуры хранилищ – хотя классическое озеро данных, в отличие от DWH, ориентировано на множество структур данных, оно может поддерживать обработку транзакций с помощью форматов открытых таблиц типа Delta Lake, Apache Hudi или Iceberg, о чем мы писали здесь. Это обеспечивает универсальную возможность удовлетворить потребности различных аналитических и транзакционных приложений.
- потоковая обработка в режиме реального времени. Не все данные просто сохраняются в озере данных и анализируются позже. Часто возникает потребность собирать, хранить, обрабатывать и даже анализировать данные в режиме реального времени. Идеальная облачная экосистема Data Lake включает мощные сервисы для сбора, хранения и анализа потоковых данных, а также возможность для этого создавать собственные приложения.
- искусственный интеллект и Machine Learning для создания интеллектуальных приложений, таких как прогнозная аналитика и глубокое обучение.
- обеспечение безопасности, включая конфиденциальность чувствительных данных и управление доступом к ним.
- службы управления данными, которые используются на разных платформах. ETL-конвейеры обеспечивают правильное перемещение данных. Идеальная облачная экосистема озера данных должна иметь механизм ETL, чтобы понимать источники данных, извлекать и подготавливать данные и надежно загружать их в хранилища.
- сервисы приложений. Идеальная облачная экосистема Data Lake имеет полнофункциональные утилиты для сценариев использования IoT, мобильных приложений и вызовов API.
Таким образом, современное озеро данных адаптируется к широкому спектру аналитических приложений и пользователей, покрывая все дополнительные потребности предприятия, включая безопасность, контроль доступа и автоматизированная поддержка облачной инфраструктуры. Как эти ключевые требования к Data Lake реализуются в тенденции развития аналитики больших данных и дата-инженерии под названием DaaS (Data as a Service), рассмотрим далее.
Что такое DaaS
Данные как услуга — это стратегия управления данными, которая использует облако для обеспечения хранения, интеграции и обработки данных по сети. DaaS похож на SaaS, стратегию облачных вычислений, которая доставляет приложения пользователям по сети, поэтому им не нужно запускать их локально на своих устройствах. Это устраняет необходимость в локальной установке программного обеспечения и управлении им. Точно так же DaaS отдает на аутсорсинг большинство операций по хранению, интеграции и обработке данных.
По сравнению с локальным хранилищем или озером данных DaaS-подход дает следующие преимущества:
- сокращение времени настройки, поскольку можно практически сразу начать хранение и обработку данных;
- облачная инфраструктура очень надежна, поэтому рабочие нагрузки DaaS менее подвержены простоям и сбоям;
- DaaS является более масштабируемым и гибким, чем локальная альтернатива, поскольку облачным рабочим нагрузкам можно мгновенно выделить больше ресурсов;
- DaaS упрощает оптимизацию управления данными и затрат на их обработку;
- инструменты и службы DaaS-платформ автоматически управляются и обновляются провайдером;
- облачная платформа DaaS позволяет сэкономить на оплате труда специалистов, специализирующихся на настройке инструментов обработки данных и управлении ими.
Однако, помимо преимуществ, которые можно получить с помощью DaaS, у этого подхода есть и некоторые проблемы, которые мы подробно разбирали в этой статье:
- при перемещении данных в облачную инфраструктуру и передаче их по сети, могут возникнуть риски безопасности, которых можно было избежать в локальной инфраструктуре за брандмауэром. Поэтому в облачной инфраструктуре очень важно использовать механизмы аутентификации, хранить данные в определенных регионах и передавать их в зашифрованном виде.
- DaaS-платформы могут ограничивать количество инструментов, доступных для обработки данных;
- передача больших объемов данных в DaaS-решение может занять много времени в случае ограниченной пропускной способности сети.
Тем не менее, современные облачные провайдеры стремятся смягчить или устранить совсем все эти риски, чтобы привлечь на свои DaaS-платформы еще больше пользователей за счет широкого набора различных интерфейсов и инструментов интеграции данных, а также аналитических инструментов. Например, Yandex Cloud, VK Cloud, Google Cloud Platform, Microsoft Azure, AWS и прочие DaaS-платформы крупных облачных провайдеров. Читайте в нашей новой статье про построение безопасной облачной архитектуры LakeHouse на базе Apache Kafka и Snowflake.
Больше подробностей про организацию Data Lake и другие архитектурные модели хранения и аналитики больших данных вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Источники