Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps, интегрированная с сервисами Google.
Один для всех: универсальный Apache Spark класса люкс для 3-х крупнейших Cloud-провайдеров
17 февраля 2021 года Google Cloud и Databricks объявили о новом партнерстве по развертыванию Delta Lake от Databricks, о котором мы рассказывали здесь, в облаке Google. Теперь это быстрое хранилище больших данных с улучшенными возможностями Apache Spark позволяет решать сложные аналитические задачи корпоративного масштаба, объединившись с сервисами Google Cloud.
Помимо основной среды выполнения Databricks, проприетарной реализации Spark, которая в 7 раз быстрее open-source дистрибутив, решение включает Delta Lake и Delta Engine для построения быстрых, гибких и масштабируемых озер данных с SQL-аналитикой, средства визуализации и MLflow для MLOps-операций. С Databricks в Google Cloud можно развернуть Delta Lake в полностью контейнерной облачной среде, проводить аналитику больших данных с машинного обучения (Machine Learning) и других методов ИИ, чтобы обеспечить интеллектуальное принятие решений, ускорить цифровую трансформацию и переход к компании data-driven управлению. Это уже успели по достоинству оценить инженеры данных международного журнального издательства Condé Nast [1].
Сотрудничество Databricks с Google Cloud привело к уникальным на текущий момент результатам: сегодня Big Data платформа премиум-класса на основе Apache Spark, которой считается Delta Lake от Databricks, является единственным унифицированным решением для всех 3-х крупнейших Cloud-сервисов. Речь идет об SaaS-гигантах Google, MS Azure и Amazon Web Services. В AWS продукт Databricks представлен на Amazon Marketplace, а в Azure – это первичное предложение Microsoft. Версия для Google Cloud находится где-то между ними [2]:
- предложение относится к торговой площадке Google Cloud Marketplace, а не выходит под брендом Google, что делает его похожим на вариант AWS, однако, Google Cloud и Databricks предпринимают совместные усилия по выводу продукта на рынок;
- Databricks в Google Cloud тесно интегрирован с другими сервисами Google, аналогично версии Azure.
Таким образом, большинство уникальных опций Databricks в Google Cloud обусловлено тесной интеграцией с сервисами Google, о чем мы подробнее поговорим далее.
Hadoop для инженеров данных
Код курса
HDDE
Ближайшая дата курса
по запросу
Продолжительность
40 ак.часов
Стоимость обучения
120 000 руб.
ТОП-5 Google-возможностей для Delta Lake Databricks
Отметим следующие преимущества, которые дает развертывание платформы Databricks в облаке Google [3]:
- готовые коннекторы к BigQuery, Pub/Sub, Google Kubernetes Engine, Cloud Storage, Looker и AI-платформе с предиктивными ML-моделями и инструментами AutoML;
- рабочие процессы машинного обучения, выполняемые на Databricks, могут использовать платформу искусственного интеллекта Google в качестве вычислительной службы для обучения и в качестве службы хостинга для развертывания ML-модели;
- развертывание и эксплуатация полностью на основе контейнеров в Kubernetes, что увеличивает гибкость процессов разработки и доставки продукта конечным пользователям, ускоряя выпуск новых функций в любом масштабе и с меньшими затратами;
- обеспечение безопасности с помощью Google Cloud IAM и Google Identity;
- несмотря на корпоративную ориентацию решений Databricks и Google, их совместная платформа остается в статусе open-source. Кроме того, эти Big Data компании заявили о готовности обеспечить своим клиентам беспроблемную интеграцию и опыт работы с Databricks в облаке Google, включая решения Accenture, Cognizant, Collibra, Confluent, Deloitte, Fishtown Analytics, Fivetran, Immuta, Informatica, Infoworks, Insight, MongoDB, Privacera, Qlik, SoftServe, Slalom, Tableau, TCS, Trifacta и пр.
Таким образом, теперь развернуть в облаке Google по-настоящему гибкое и прозрачное озеро данных с поддержкой ACID-транзакций и другими дополнительными возможностями Delta Lake, которые расширяют нативный Apache Spark, стало еще проще и эффективнее.
Узнайте больше об аналитике больших данных с Delta Lake и Apache Spark на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Основы Apache Spark для разработчиков
- Анализ данных с Apache Spark
- Потоковая обработка в Apache Spark
- Машинное обучение в Apache Spark
- Графовые алгоритмы в Apache Spark