Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков, Delta Lake, Databricks Google Cloud, Big Data

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps, интегрированная с сервисами Google.

Один для всех: универсальный Apache Spark класса люкс для 3-х крупнейших Cloud-провайдеров

17 февраля 2021 года Google Cloud и Databricks объявили о новом партнерстве по развертыванию Delta Lake от Databricks, о котором мы рассказывали здесь, в облаке Google. Теперь это быстрое хранилище больших данных с улучшенными возможностями Apache Spark позволяет решать сложные аналитические задачи корпоративного масштаба, объединившись с сервисами Google Cloud.

Помимо основной среды выполнения Databricks, проприетарной реализации Spark, которая в 7 раз быстрее open-source дистрибутив, решение включает Delta Lake и Delta Engine для построения быстрых, гибких и масштабируемых озер данных с SQL-аналитикой, средства визуализации и MLflow для MLOps-операций. С Databricks в Google Cloud можно развернуть Delta Lake в полностью контейнерной облачной среде, проводить аналитику больших данных с машинного обучения (Machine Learning) и других методов ИИ, чтобы обеспечить интеллектуальное принятие решений, ускорить цифровую трансформацию и переход к компании data-driven управлению. Это уже успели по достоинству оценить инженеры данных международного журнального издательства Condé Nast [1].

Сотрудничество Databricks с Google Cloud привело к уникальным на текущий момент результатам: сегодня Big Data платформа премиум-класса на основе Apache Spark, которой считается Delta Lake от Databricks, является единственным унифицированным решением для всех 3-х крупнейших Cloud-сервисов. Речь идет об SaaS-гигантах Google, MS Azure и Amazon Web Services. В AWS продукт Databricks представлен на Amazon Marketplace, а в Azure – это первичное предложение Microsoft. Версия для Google Cloud находится где-то между ними [2]:

  • предложение относится к торговой площадке Google Cloud Marketplace, а не выходит под брендом Google, что делает его похожим на вариант AWS, однако, Google Cloud и Databricks предпринимают совместные усилия по выводу продукта на рынок;
  • Databricks в Google Cloud тесно интегрирован с другими сервисами Google, аналогично версии Azure.

Таким образом, большинство уникальных опций Databricks в Google Cloud обусловлено тесной интеграцией с сервисами Google, о чем мы подробнее поговорим далее.

Hadoop для инженеров данных

Код курса
HDDE
Ближайшая дата курса
17 июня, 2024
Продолжительность
40 ак.часов
Стоимость обучения
120 000 руб.

ТОП-5 Google-возможностей для Delta Lake Databricks

Отметим следующие преимущества, которые дает развертывание платформы Databricks в облаке Google [3]:

  • готовые коннекторы к BigQuery, Pub/Sub, Google Kubernetes Engine, Cloud Storage, Looker и AI-платформе с предиктивными ML-моделями и инструментами AutoML;
  • рабочие процессы машинного обучения, выполняемые на Databricks, могут использовать платформу искусственного интеллекта Google в качестве вычислительной службы для обучения и в качестве службы хостинга для развертывания ML-модели;
  • развертывание и эксплуатация полностью на основе контейнеров в Kubernetes, что увеличивает гибкость процессов разработки и доставки продукта конечным пользователям, ускоряя выпуск новых функций в любом масштабе и с меньшими затратами;
  • обеспечение безопасности с помощью Google Cloud IAM и Google Identity;
  • несмотря на корпоративную ориентацию решений Databricks и Google, их совместная платформа остается в статусе open-source. Кроме того, эти Big Data компании заявили о готовности обеспечить своим клиентам беспроблемную интеграцию и опыт работы с Databricks в облаке Google, включая решения Accenture, Cognizant, Collibra, Confluent, Deloitte, Fishtown Analytics, Fivetran, Immuta, Informatica, Infoworks, Insight, MongoDB, Privacera, Qlik, SoftServe, Slalom, Tableau, TCS, Trifacta и пр.

Таким образом, теперь развернуть в облаке Google по-настоящему гибкое и прозрачное озеро данных с поддержкой ACID-транзакций и другими дополнительными возможностями Delta Lake, которые расширяют нативный Apache Spark, стало еще проще и эффективнее.

Delta Lake, Databricks, Google Cloud
Интеграция Delta Lake Databricks с сервисами Google Cloud

Узнайте больше об аналитике больших данных с Delta Lake и Apache Spark на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://cloud.google.com/press-releases/2021/0217/databricks-on-google-cloud
  2. https://www.zdnet.com/article/databricks-wins-triple-crown-with-launch-on-google-cloud/
  3. https://cloud.google.com/databricks
Поиск по сайту