В прошлом месяце Apache Spark выпустили свою последнюю новую версию Apache Spark 2.4.0. Это пятая версия в серии 2.x. В новой версии Apache Spark появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности.
Что нового в новой версии Apache Spark 2.4.0?
1) Встроенная поддержка Apache Avro — популярного формата сериализации данных. Теперь разработчики могут считывать и записывать свои данные в Avro формате, прямо в Apache Spark
2) Устранение ограничения на размер блока 2 ГБ
3) Улучшения Pandas UDF
Большие перемены:
1) Apache Spark 2.4.0 поддерживает метод Барьерной синхронизации для лучшей интеграции с глубокими системами обучения.
2) Теперь разработчики могут писать приложения Spark с помощью Scala 2.12. Это обеспечивает лучшую совместимость с Java 8, которая позволяет использовать улучшенную сериализацию лямбда-функций.
3) В новой версии Apache Spark с помощью streamingDF.writeStream.foreachBatch(…) вы можете записывать пакетные данные на выходе каждого микропакета.
4) Apache Spark 2.4.0 поддерживает пакет Spark—Avro с поддержкой логического типа для повышения производительности и удобства использования.
5) Эта версия Spark также предоставляет возможность использовать формат данных для изображений. Теперь пользователи могут загружать изображения через Spark source reader interface.
df = spark.read.format(«image»).load(«…»)
Источники: https://hub.packtpub.com/apache-spark-2-4-0-released/
https://jaxenter.com/apache-spark-2-4-overview-151623.html
Приглашаем вас на наши курсы по Apache Spark читаемые в нашем учебном центре: