Публикации с меткой Spark SQL

03Апр
2025

Открытый митап «Исполнение запросов: Trino и Spark»

В поддержку нашего нового курса для дата-инженеров Школа Больших Данных проводит очередной бесплатный митап для аналитиков, архитекторов, инженеров данных, разработчиков, DataOps- инженеров и тех, кто интересуется современными технологиями обработки данных. Trino – это распределенный SQL-движок с массово-параллельной архитектурой и открытым исходным кодом. Он предназначен для работы с большими объемами данных в...

27Авг
2024

Photon: новый векторизованный движок запросов Spark SQL от Databricks

Автор Анна Вичуговав категории Spark

Spark Photon Databricsks. Spark разработка примеры курсы обучение, Spark SQL для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустила новый движок выполнения запросов Spark SQL для ML-приложений, как он работает и где его настроить: возможности и ограничения Photon Engine. Преимущества Photon Engine для ML-нагрузок Spark-приложений Чтобы сделать Apache Apark еще быстрее, разработчики Databricks выпустили новый движок выполнения запросов - Photon Engine. Это высокопроизводительный механизм запросов, который...

16Авг
2024

Динамическое сокращение разделов в Spark SQL

Автор Анна Вичуговав категории Spark

Spark SQL примеры курсы обучение, Spark SQL для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Что такое Dynamic Partition Pruning в Spark SQL, как работает этот метод оптимизации пакетных запросов, зачем его использовать в задачах аналитики больших данных, и каким образом повысить эффективность его практического применения. Что такое Dynamic Partition Pruning и зачем это нужно в Spark SQL Параллельная обработка данных в Apache Spark обеспечивается...

02Июл
2024

Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки

Автор Анна Вичуговав категории Spark

Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming настройка, потоковая обработка Spark Structured Streaming, Spark Structured Streaming примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как размер пакета, режим вывода и интервал срабатывания триггера потоковой обработки влияют на скорость вычислений в приложении Apache Spark Structured Streaming и как настроить эти параметры. Размер пакета при потоковой обработке данных в Spark Streaming Хотя скорость обработки данных средствами Apache Spark Streaming зависит от многих факторов, включая саму структуру...

08Май
2024

Источники данных Apache Spark

Автор Анна Вичуговав категории Spark

обучение Spark, Spark Structured Streaming SQL, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Какие источники исходных данных поддерживает Apache Spark для пакетной и потоковой обработки, обеспечивая отказоустойчивые вычисления в большом масштабе средствами SQL и Structured Streaming. Источники данных Apache Spark SQL и структурированной потоковой передачи Будучи фреймворком для создания распределенных приложений обработки больших объемов данных, Apache Spark может подключаться к разным источникам этих...

23Окт
2023

Эскизы данных в Apache Spark с библиотекой DataSketches

Автор Анна Вичуговав категории Spark, Блог

Apache Spark SQL 3.5.0 Datasketches, Datasketches Spark SQL примеры курсы обучение, потоковые вычисления в Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

С версии 3.5.0Apache Spark поддерживает Datasketches – программную библиотеку стохастических потоковых алгоритмов. Разбираемся, что это такое, и при чем здесь алгоритм HyperLogLog. Что такое Apache Datasketches и зачем это нужно В аналитике больших данных часто возникают проблемные запросы, которые не масштабируются, поскольку требуют огромных вычислительных ресурсов и времени для получения...

21Сен
2023

Почему производительность Apache Flink выше Spark: 5 главных причин

Автор Анна Вичуговав категории Flink, Spark, Блог

Spark vs Flink, сходства и различия Spark vs Flink, Flink примеры курсы обучение, курсы Spark, обучение Apache Spark, Spark SQL курсы обучение примеры, Spark vs Flink сравнение, Apache Spark Flink для инженеров и разработчиков, анализ больших данных с Apache Spark Flink, аналитика Big Data с Apache Spark Flink курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Из-за чего приложения Flink работают быстрее Spark: разница в моделях обработки данных, управлении памятью, методах оптимизации, дизайне API и личный опыт использования. Apache Flink vs Spark: сходства и отличия Apache Spark и Flink считаются наиболее популярными фреймворками разработки распределенных приложений в области Big Data. Они достаточно похожи, что мы ранее...

15Сен
2023

Apache Spark 3.5.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.5.0 обновления и улучшения, PySpark Spark SQL примеры курсы обучение, машинное обучение Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

13 сентября 2023 года вышел Apache Spark 3.5. Знакомимся с самыми важными новинками свежего релиза: расширения Spark Connect и SQL, поддержка DeepSpeed, улучшения потоковой передачи и свежие UDF-функции Python. ТОП-5 новинок Apache Spark 3.5.0 В Apache Spark 3.5. добавлено много исправлений и улучшений, а также реализованы новые функции. Наиболее интересными...

09Сен
2023

Что такое SPIP: 4 предложения по улучшению Apache Spark

Автор Анна Вичуговав категории Spark, Блог

улучшения и развитие Apache Spark , Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие улучшения Apache Spark опубликованы в 2023 году и как подать свое предложение по улучшению самого популярного вычислительного движка в стеке Big Data. Что такое SPIP и как подать свое предложение по улучшению фреймворка В любом продукте помимо ошибок есть также предложения по улучшению. В Apache Spark они...

02Сен
2023

Apache AirFlow vs Spark в Databricks для оркестрации рабочих процессов

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Apache Spark AirFlow дата-инженер примеры курсы обучение, анализ данных Spark, Spark дата-инженерия Apache AirFlow примеры курсы обучение, Spark Databrics AirFlow сравнение что лучше, оркестрация процессов с Apache Spark в Databricks и AirFlow примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем отличается оркестрация ETL-процессов в Databricks и Apache AirFlow: принципы работы, достоинства и недостатки, а также что выбирать дата-инженеру для решения практических задач. Apache AirFlow vs Spark в Databricks: сходства и отличия Облачная платформа Databricks, основанная на Apache Spark, предлагает пользователям единую среду для создания, запуска и управления различными рабочими...

30Авг
2023

Программируй на английском: ИИ-SDK для PySpark от Databricks

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

LLM AI MLOps Spark, MLOPS PySpark-AI примеры курсы обучение, Spark примеры курсы обучение AI ИИ, PySpark-AI English SDK Databricks курсы Machine Learning для дата-инженеров и аналитиков, обучение Machine Learning Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как получать результаты обработки данных с помощью Apache Spark, адресуя ИИ бизнес-запросы на английском языке: знакомимся с English SDK от Databricks. Настоящий Low Code с PySpark-AI. English SDK for Apache Spark и PySpark-AI: как это работает Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только...

10Авг
2023

Регулярные выражения в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

регулярные выражения PySpark, Spark SQL примеры курсы обучение, Apache Spark Для аналитиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Каждый дата-инженер и аналитик данных активно использует регулярные выражения для поиска значений в тексте по заданному шаблону. Сегодня рассмотрим, как это сделать с функциями regexp_replace(), rlike() и regexp_extract в Apache Spark на примере небольшого PySpark-приложения. Как работает функция regexp_replace() Регулярным выражением называется последовательность символов, задающая шаблон соответствия в тексте. Например,...

01Авг
2023

Алиасы столбцов и параметризованные SQL-запросы в Apache Spark 3.4

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4 SQL примеры, алиасы столбцов и параметры SQL-запросов в Apache Spark, Apache Spark простые примеры SQL-запросов, PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чем полезны новые фичи Apache Spark SQL, выпущенные в релизе 3.4. Разбираемся с псевдонимами столбцов и параметризованными SQL-запросами на простых примерах, запуская Spark-приложение в Google Colab. Псевдонимы столбцов Хотя с момента выхода Apache Spark 3.4 в апреле 2023 года, о чем мы писали здесь, прошло почти полгода, возможность ссылаться на...

17Июл
2023

Apache Spark 3.4.1: обзор отладочного релиза, выпущенного в июне 2023

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4.1 новые возможности, Apache Spark 3.4.1 обзор релиза, Spark Structured Streaming SQL PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

23 июня 2023 года опубликован очередной релиз Apache Spark 3.4.1, который считается отладочным выпуском для предыдущего, содержащий исправления стабильности. Помимо исправления ошибок, в нем также 16 новых фичей и более 20 улучшений, самые главные из которых мы рассмотрим далее. Исправления ошибок и новые фичи Apache Spark 3.4.1 Поскольку выпуск считается...

06Июл
2023

Spark Connect в релизе 3.4: новые возможности для разработчика

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, Spark Connect, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что в выпуске 3.4.0 от апреля 2023 года Spark Connect представил несвязанную архитектуру клиент-сервер, которая обеспечивает удаленное подключение к кластерам Spark из любого приложения, работающего в любом месте. Сегодня рассмотрим подробнее, как это работает и каковы плюсы для практического использования. Что такое Spark Connect и зачем это...

28Июн
2023

DLQ в Kafka для AVRO-сообщений в Spark-приложении с библиотекой ABRiS

Автор Анна Вичуговав категории Kafka, Spark, Блог

Spark Streaming Kafka ABRiS примеры курсы обучение, Spark SQL курсы, Apache Spark для разработчиков, Spark Streaming Kafka примеры курсы обучение, DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про лучшие практики работы с очередями недоставленных сообщений в Apache Kafka. Сегодня рассмотрим, как реализовать DLQ для AVRO-сообщений в приложении Spark Streaming c библиотекой ABRiS. DLQ для Apache Kafka в Spark-приложении Ситуация, когда приложение-продюсер вдруг изменяет формат или схему данных, публикуемых в Apache Kafka, на практике случается....

22Июн
2023

Аккумуляторы в Apache Spark: что это и как их использовать?

Автор Анна Вичуговав категории Spark, Блог

аккумуляторы и широковещательные переменные Spark, Spark Разработка распределенных приложений примеры курсы обучение, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое аккумуляторы в Apache Spark, чем они отличаются от широковещательных переменных и какова польза от этих концепций при разработке распределенных приложений и их использовании в кластере. Широковещательные переменные vs аккумуляторы В любой распределенной среде возникает задача сведения локальных результатов вместе. На практике, ее решение не всегда является простым. Например,...

15Июн
2023

3 способа прочитать данные из Kafka с помощью Spark

Автор Анна Вичуговав категории Kafka, Spark, Блог

Spark Streaming Kafka Google Colab, Spark SQL Kafka Streaming для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Как Spark-приложение может прочитать данные из топиков Kafka: обзор вариантов и способов их использования. А также рассмотрим, почему Spark Structured Streaming заменила прямой поток и подход на основе приемника. Прямой поток и подход на основе приемника Будучи мощным фреймворком разработки распределенных приложений, Apache Spark позволяет считывать данные в потоковом режиме...

08Июн
2023

Как посмотреть GUI приложения Apache Spark в Google Colab с ngrok

Автор Анна Вичуговав категории Spark, Блог

Spark GUI Google Colab, Spark SQL для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Сегодня посмотрим, как запустить Spark-приложение в Google Colab и увидеть сведения о его выполнении в веб-интерфейсе на удаленной машине, тунеллированной с помощью утилиты ngrok. Проброска туннеля в Google Colab с ngrok для Spark-приложения Хотя назвать Google Colab удобной средой для разработки приложений или исследования данных, нельзя, им часто пользуются аналитики...

02Июн
2023

Как механизм AQE выполняет динамическое объединение разделов в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

динамическое объединение разделов Spark SQL, shuffle Spark SQL, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Apache Spark примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали практический пример разделения большого датафрейма Apache Spark на несколько разделов. Сегодня поговорим о том, как их объединить с помощью механизм AQE и динамической настройки конфигурации spark.sql.shuffle.partitions. Разделы и оптимизация распределенных вычислений в Spark-приложениях Распределение данных по разделам сильно влияет на скорость работы Spark-приложений. Распределенное приложение выполняется наиболее...