Как работать с Apache Spark через Livy: режимы и особенности

Вчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy, а также за счет чего этот гибкий API обеспечивает удобство работы с Python-кодом и общие Spark Context’ы для разных операторов Airflow и не только.

Когда вам нужен с Apache Livy: 5 популярных кейсов

Прежде всего, отметим типовые сценарии, когда целесообразно использовать Apache Livy при работе со Спарк [1]:

необходима единая сессия Spark (session) для нескольких клиентов, которые достаточно компактны и не перегружены сложными настройками;
нужно быстро настроить доступ к кластеру Spark;
требуется интегрировать Spark в мобильное приложение;
необходимо поддерживать работу нестабильного кластера, не изменяя каждый раз его конфигурацию;
нужно организовать удаленный запуск Spark-задач по расписанию.

Таким образом, Apache Livy является агентом для запросов Spark, отправляя код в кластер в виде фрагментов скрипта или пакетов. При этом он предоставляет программный API (programmatic API) для Java, Scala и Python, который позволяет приложениям выполнять код внутри Spark без необходимости поддерживать локальный контекст [2].

Как взаимодействовать с Apache Spark через Livy: режимы и интерфейсы

Поясним еще раз, зачем вообще нужен Apache Livy для Spark. Спарк предоставляет 2 режима для работы с данными [3]:

интерактивный, который обеспечивается Spark-Shell, pySpark и SparkR REPL;
пакетный, когда используется Spark-submit для отправки Spark-приложения в кластер без взаимодействия в процессе выполнения.

На первый взгляд эти 2 режима выглядят по-разному, однако, в глубине они едины. Когда пользователь выполняет команду оболочки, чтобы запустить клиент для отправки приложения Спарк в кластер, после запуска приложения этот клиент может либо продолжать работать как REPL (интерактивный режим), либо просто завершиться (пакетный режим). Независимо от режима, выбранного пользователем, запустить Spark-приложение можно, войдя в шлюз кластера или с локальной машины. Однако, оба варианта имеют следующие недостатки [3]:

централизация накладных расходов ресурсов и возможность сбоя шлюза;
трудности с внедрением комплексного механизма контроля доступа и интеграции с существующими службами безопасности, такими как Apache Knox, Ranger;
излишнее раскрытие подробностей развертывания приложения конечным пользователям.

Core Spark - основы для разработчиков

Код курса

CORS

Ближайшая дата курса

12 мая, 2025

Продолжительность

16 ак.часов

Стоимость обучения

48 000 руб.

Избежать этих проблем запуска Spark-приложений с удаленного компьютера поможет Apache Livy – REST-интерфейс Спарк для выполнения операторов, заданий и приложений. Простота и удобство – одни из основных преимуществ, которые он дает инженеру Big Data. Например, для связи с его REST API используется обычный HTTP-клиент, который позволяет легко получить доступ, с учетом того, что состояния и списки доступны даже для браузеров. Кроме того, протокол HTTP/HTTPS знаком каждому разработчику, позволяет работать с методами GET, POST и пр., обеспечивая при этом все необходимые меры безопасности. Есть 2 режима для взаимодействия с интерфейсом Livy [1]:

интерактивные сессии (Interactive Sessions), которые запускают сеанс, куда можно отправлять операторы. При наличии ресурсов они будут выполнены, и можно будет получить выходные данные. Этот режим подходит для экспериментов с данными или для быстрых вычислений.
Jobs/Batch-режим, который отправляют пакеты кода как программы. Как правило, это используется для запуска обычных задач с некоторыми аргументами и рабочей нагрузкой, выполняемых в фоновом режиме. Например, задача подготовки данных, которая принимает в качестве параметров каталоги ввода и вывода.

Data Pipeline на Apache Airflow

Код курса

AIRF

Ближайшая дата курса

2 июня, 2025

Продолжительность

24 ак.часов

Стоимость обучения

72 000 руб.

Еще 4 полезных особенности Apache Livy

Перечислим еще несколько характеристик этого REST API, благодаря которым он обеспечивает такую гибкость и комфорт в эксплуатации:

использование Apache Zeppelin в качестве интерпретатора аналогично широко известному в Data Science-инструменту Jupyter Notebook. Это означает, что код пишется непосредственно в записной книжке и выполняется для Livy REST API, без самостоятельно обработки HTTP-запросов [1]. Это очень удобно и дает так называемую гибкость, к который привыкли Python-разработчики [4].
для безопасной аутентификации в Livy можно использовать протокол Для этого необходимо добавить в конфигурационный файл livy.confследующие свойства [5]:

livy.server.auth.type = kerberos

livy.server.auth.kerberos.principal = HTTP/_HOST@HADOOP.LOCALDOMAIN

livy.server.auth.kerberos.keytab = $KEYTAB

livy.server.launch.kerberos.principal = $USER/_HOST@HADOOP.LOCALDOMAIN

livy.server.launch.kerberos.keytab = $KEYTAB

обеспечивает высокую доступность заданий Spark, выполняемых в кластере. В частности, в кластере Azure HDInsight если после удаленной отправки задания в кластер Spark служба Livy перестает работать, задание продолжит выполняться в фоновом режиме. Выполняя резервное копирование, служба Livy восстанавливает состояние задания и отправляет отчет. В серверной части этот REST API обеспечивает работу записных книжек Jupyter для HDInsight. Если записная книжка выполняет задание Spark, а служба Livy перезапускается, записная книжка продолжит выполнять ячейки кода [6].

Core Spark - основы для разработчиков

Код курса

CORS

Ближайшая дата курса

12 мая, 2025

Продолжительность

16 ак.часов

Стоимость обучения

48 000 руб.

В заключение отметим, что при всех достоинствах этого REST API для Спарк, не стоит использовать Livy каждый раз при отправке запроса к кластеру. Например, для серверной части Спарк, включая доступ к данным через Spark SQL, целесообразнее использовать Thriftserver вместо того, чтобы строить инфраструктуру вокруг Livy [1]. Напомним, Spark Thrift Server – это порт Spark SQL для HiveServer2 от Apache Hive, который позволяет клиентам JDBC / ODBC выполнять SQL-запросы по протоколам JDBC и ODBC в Спарк. Благодаря этому бизнес-пользователи могут работать со своими BI-инструментами, такими как Tableau или MS Excel, подключаясь к Спарк с помощью интерфейса ODBC. Это позволяет использовать распределенные в памяти возможности механизма SQL-запросов, включая оптимизатор Catalyst, о котором мы писали здесь. Кроме того, SQL-запросы в Spark Thrift Server используют один и тот же контекст, что еще больше повышает производительность с использованием тех же источников данных [7]. Таким образом, Apache Livy – это не серебряная пуля работы со Спарк, о чем мы и поговорим завтра, сравнив его с Apache Ozzie – серверной системой планирования рабочих процессов для управления заданиями Hadoop. О том, какие трудности могут возникнуть при попытке обратиться к функциям пользовательских JAR-файлов в AWS EMR, где работают Spark и Livy, читайте в нашей новой статье.

Код курса

ADH-AIR

Ближайшая дата курса

по запросу

Продолжительность

ак.часов

Стоимость обучения

0 руб.

А как на практике эффективно использовать Apache Spark, Airflow, Livy и другие компоненты экосистемы Hadoop для аналитики больших данных в проектах цифровизации своего бизнеса, а также государственных и муниципальных предприятий, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Смотреть расписание

Записаться на курс

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

Когда вам нужен с Apache Livy: 5 популярных кейсов

Как взаимодействовать с Apache Spark через Livy: режимы и интерфейсы

Core Spark - основы для разработчиков

Код курса

CORS

Ближайшая дата курса

12 мая, 2025

Продолжительность

16 ак.часов

Стоимость обучения

48 000 руб.

Data Pipeline на Apache Airflow

Код курса

AIRF

Ближайшая дата курса

2 июня, 2025

Продолжительность

24 ак.часов

Стоимость обучения

72 000 руб.

Еще 4 полезных особенности Apache Livy

Core Spark - основы для разработчиков

Код курса

CORS

Ближайшая дата курса

12 мая, 2025

Продолжительность

16 ак.часов

Стоимость обучения

48 000 руб.

Код курса

ADH-AIR

Ближайшая дата курса

по запросу

Продолжительность

ак.часов

Стоимость обучения

0 руб.

Публикации по теме