Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

05Июн
2024

Планы выполнения запросов при работе с API pandas в Apache Spark

обучение Spark, PySpark Spark Pandas, pandas-on-spark примеры курсы обучение, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта. API pandas и физический план выполнения запроса в Apache Spark Мы уже писали, что PySpark, API-интерфейс...

27Май
2024

Бесплатный митап «Apache Spark на Kubernetes своими руками»

Автор Анна Вичуговав категории Новости

Школа Больших Данных проводит бесплатный митап для дата-инженеров, разработчиков и администраторов «Apache Spark на Kubernetes своими руками». Митап состоится 30 мая 2024 года в 17:00 МСК. Мероприятие рассчитано на инженеров данных, разработчиков и просто интересующихся. Специальной подготовки не требуется: неплохо немного уметь программировать на Python, но это не обязательно. В...

14Май
2024

Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard

Автор Анна Вичуговав категории Spark

Spark Lakeguard Databricks, архитектура и безопасность платформы данных, архитектура и безопасность Spark, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity. Проблемы управления данными в мультитенантной среде Компания Databricks не просто развивает и продвигает...

08Май
2024

Источники данных Apache Spark

Автор Анна Вичуговав категории Spark

обучение Spark, Spark Structured Streaming SQL, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Какие источники исходных данных поддерживает Apache Spark для пакетной и потоковой обработки, обеспечивая отказоустойчивые вычисления в большом масштабе средствами SQL и Structured Streaming. Источники данных Apache Spark SQL и структурированной потоковой передачи Будучи фреймворком для создания распределенных приложений обработки больших объемов данных, Apache Spark может подключаться к разным источникам этих...

24Апр
2024

Сравнение датафреймов в Apache Spark на примере PySpark-кода

Автор Анна Вичуговав категории Spark

Apache Spark для разработчика примеры курсы обучение, PySpark тестирование assert примеры, PySpark Spark дата-инженерия примеры, Школа Больших Данных Учебный центр Коммерсант

Что такое assert, зачем это нужно в тестировании и отладке, как эта конструкция применяется для сравнения датафреймов в PySpark: примеры работы функций assertDataFrameEqual() и assertSchemaEqual() в Apache Spark. Что такое assert: конструкция тестирования При разработке PySpark-приложения дата-инженер чаще всего оперирует такими структурами данных, как датафрейм. Датафрейм (DataFrame) – это распределенная...

17Апр
2024

RocksDB как хранилище состояний для Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

обучение Spark, Spark Structured Streaming RocksDB state backend, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Где stateful-операторы хранят состояния, почему RocksDB лучше HDFSBackedStateStore и как Databricks адаптировал key-value хранилище к особенностям Spark Structured Streaming, чтобы сделать потоковую обработку больших данных еще быстрее. Где stateful-операторы Spark Structured Streaming хранят состояния? Хотя Apache Spark Structured Streaming реализует потоковую парадигму обработки информации, он по-прежнему использует микропакеты, т.е. ограниченные...

27Мар
2024

Хранение состояний в Apache Spark Structured Streaming и новый State Reader API от Databricks

Автор Анна Вичуговав категории Spark

обучение Spark, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Где хранятся состояния операторов в stateful-приложениях Apache Spark Structured Streaming, зачем разработчику нужны данные о состояниях, как их получить и чем для этого полезен новый API State Reader от Databricks. Хранение состояние в Apache Spark Structured Streaming В феврале 2024 года компания Databricks выпустила очередную версию Databricks Runtime – среду...

27Фев
2024

Журналирование событий в Apache Spark и сжатие лог-файлов

Автор Анна Вичуговав категории Spark

Когда журналирование событий может привести к OOM-ошибке, где отслеживать системные метрики приложения Apache Spark, зачем сжимать лог-файлы и как это сделать. Логирование системных метрик в приложении Apache Spark Поскольку фреймворк Apache Spark изначально предназначен для создания высоконагруженных распределенных приложений пакетной и потоковой обработки больших объемов данных, он позволяет отслеживать системные...

17Фев
2024

4 модели потоковой парадигмы обработки данных

Автор Анна Вичуговав категории Flink, Kafka, Spark

Streaming архитектура инженерия данных, потоковая обработка больших данных, Kafka Flink Spark Streaming, потоки Big Data примеры курсы обучение, обучение дата-инженеров и архитекторов данных, курсы инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Чем пакетная парадигма обработки данных отличается от пакетной и как она реализуется на практике: принципы работы и воплощение в Big Data на примере Apache Spark, Kafka и Flink. Еще раз о разнице потоковой и пакетной парадигмы обработки данных Пакетная обработка и потоковая обработка — это две разные парадигмы обработки данных....

10Фев
2024

Обратное давление в потоковой передаче событий

Автор Анна Вичуговав категории Flink, Kafka, NiFi, Spark

что такое Backpressure в потоковой передаче событий, Backpressure Kafka Spark Flink NiFi, обучение разработчиков Big Data примеры курсы, Школа Больших Данных

Что означает термин backpressure и зачем создавать обратное давление в streaming-системах: разбираемся с методами управления пропускной способностью потоковой передачи событий на примере Apache Kafka, Flink, Spark и NiFi. Что такое обратное давление: backpressure в конвейерах потоковой обработки данных Понять, как работает сложная концепция, проще всего на простых примерах. Это общее...

23Янв
2024

Stateful-операторы в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

Spark Structured Streaming stateful operators watermark, потоковая обработка данных с Spark Structured Streaming, курсы Apache Spark? Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming примуры курсы обучение, Школа Больших Данных УЦ Коммерсант

Как выполнение нескольких stateful-операторов в одном потоке снижает стоимость обработки данных: возможности и ограничения Spark Structured Streaming. Про водяные знаки и состояния в потоковой передаче событий. Stateful-операторы и водяные знаки в потоковой обработке данных Благодаря распределенной обработке микропакетов в памяти Spark Structured Streaming позволяет обрабатывать огромные объемы данных очень быстро....

19Янв
2024

Бесплатный митап «Scala как язык разработки Spark-приложений»

Автор Анна Вичуговав категории Новости

Школа Больших Данных продолжает серию митапов по Apache Spark. Митап состоится 14 февраля 2024 года в 17:00 МСК. Мероприятие рассчитано на инженеров данных, разработчиков и просто интересующихся. Будучи мощным фреймворком разработки распределенных приложений, Apache Spark позволяет писать код на нескольких языках программирования: Scala, Java, R, Python. Сам фреймворк написан на...

28Дек
2023

Как Apache Spark планирует и запускает задания в кластере

Автор Анна Вичуговав категории Spark

Планирование запуск заданий Spark в кластере, Apache Spark Для разработчика, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Какие механизмы и компоненты позволяют Apache Spark планировать задания и эффективно утилизировать ресурсы кластера. Чем статическое разделение ресурсов отличается от динамического, и как настроить планировщик для ускорения вычислений. Планирование заданий в Apache Spark Распределенный характер Apache Spark предполагает наличие инструментов для разделения ресурсов между вычислениями. В режиме кластера каждое приложение...

22Дек
2023

Как настроить оборудование для ускорения работы Apache Spark

Автор Анна Вичуговав категории Spark

тюнинг оборудования в кластере Spark , Apache Spark для разработчика и администратора кластера, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Зачем размещать задания Apache Spark на узлах HDFS, какую пропускную способность сети передачи данных выбрать, почему не рекомендуется использовать RAID для жестких дисков, сколько выделить памяти и ядер ЦП. Рекомендации по настройке оборудования для Spark-приложений На практике большинство заданий Spark считывает входные данные из внешней системы хранения, например, файловой системы...

20Дек
2023

Профилирование PySpark-кода: пример с приложением Apache Spark для Python-разработчика

Автор Анна Вичуговав категории Spark

Профилирование PySpark, отладка Spark-приложения, Apache Spark Для разработчиков примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое профилирование кода, зачем это нужно и как работают Python-профилировщики в приложениях Apache Spark. Пример профилирования PySpark-программы. Что такое профилирование и почему это важно для PySpark-приложений Будучи написанном на java и Scala, Apache Spark также поддерживает декларативные API-интерфейсы Python, которые позволяют разработчику писать и запускать код на этом более...

10Дек
2023

Барьерный режим выполнения в Apache Spark и при чем здесь глубокое обучение

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Spark MLмашинное обучение барьерный режим выполнения, разработка Spark-приложений примеры курсы обучение

Что такое барьерный режим выполнения в Apache Spark, чем он отличается от вычислительной модели MapReduce, как связан с глубоким машинным обучением и где используется на практике. Что такое барьерный режим выполнения в Apache Spark Способ выполнения заданий Spark определяется режимом выполнения приложения, заданным на уровне фреймворка. На платформе. Именно от...

02Дек
2023

Все успешно: файл _SUCCESS в рабочих процессах Apache Spark

Автор Анна Вичуговав категории Spark, Блог

разработка Spark-приложений примеры курсы обучение

Когда и зачем Spark-приложение создает файл _SUCCESS, почему в нем нет данных, как его использовать, можно ли обойтись без него и как это сделать. Пример запуска PySpark-приложения в Google Colab. Когда и зачем Spark-приложение создает файл _SUCCESS В Apache Spark при выполнении операций записи с использованием таких методов, как saveAsTextFile(),...

19Ноя
2023

Отметки времени событий для безопасности архитектуры данных Lakehouse

Автор Анна Вичуговав категории Spark, Блог

архитектура данных, ETL время события, отметки времени DWH Data Lake, Школа Больших данных учебный центр Коммерсант

Как отметки времени о событиях в архитектуре данных Lakehouse позволяют обеспечить безопасность Delta Lake: примеры извлечения и преобразования, а также лучшие практики. Почему отметки времени в логах системных событий так важны для архитектуры больших данных Архитектура Lakehouse построена на открытых стандартах и API, которые позволяют сочетать ACID-транзакции и управление данными...

18Ноя
2023

Управление зависимостями Python в кластере со Spark Connect

Автор Анна Вичуговав категории Spark, Блог

Управление зависимостями в кластере Apache Spark, разработка Spark-приложений, Apache Spark Для разработчика и дата-инженера, ад зависимостей Python в Spark, Spark PySpark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как управлять средой PySpark-приложения в распределенной вычислительной среде: проблемы зависимостей Python в кластере и способы их решения с помощью сеансов Spark Connect в версии 3.5.0. Управление зависимостями в Python и PySpark Каждый Python-разработчик хотя бы раз сталкивался с проблемой несовместимости пакетов. Эта ситуация называется ад зависимостей (dependency hell), когда вновь...

12Ноя
2023

Потоковая публикация данных в REST API с Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

потоковая передача данных из Delta Lake во внешний REST API со Spark Structured Streaming, foreachBatch Spark Structured Streaming, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать потоковую публикацию данных из приложения Apache Spark Structured Streaming во внешний REST API, используя метод foreachBatch(), зачем перераспределять датафрейм перед его упаковкой в полезную нагрузку HTTP-запроса, от чего зависит число вызовов, и какие приемы помогут избежать сбоев из-за ошибок. 6 шагов потоковой публикации данных в REST API с...