Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

23Окт
2023

Эскизы данных в Apache Spark с библиотекой DataSketches

Автор Анна Вичуговав категории Spark, Блог

Apache Spark SQL 3.5.0 Datasketches, Datasketches Spark SQL примеры курсы обучение, потоковые вычисления в Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

С версии 3.5.0Apache Spark поддерживает Datasketches – программную библиотеку стохастических потоковых алгоритмов. Разбираемся, что это такое, и при чем здесь алгоритм HyperLogLog. Что такое Apache Datasketches и зачем это нужно В аналитике больших данных часто возникают проблемные запросы, которые не масштабируются, поскольку требуют огромных вычислительных ресурсов и времени для получения...

14Окт
2023

Контрольные точки в Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

Checkpoints spark streaming, контрольные точки Spark, отказоустойчивость Spark-приложений, Spark разработка распределенных приложений примеры курсы обучение, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, Spark stateful-приложения потоковая обработка больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы обеспечить отказоустойчивость потоковых приложений, Apache Spark использует механизм контрольных точек. Какие они бывают, когда их включать и как настроить для эффективной работы. Что такое checkpoint в Apache Spark и зачем он нужен Чтобы приложение потоковой передачи было устойчиво к сбоям по внешним причинам, например, отказ JVM, Spark Streaming сохраняет...

10Окт
2023

Гибкая кластеризация: новая технология управления данными в Delta Lake от Databricks

Автор Анна Вичуговав категории Spark, Блог

DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Зачем разделять таблицы в озере данных, что не так с Hive-разделением и Z-упорядочение в Delta Lake и как работает жидкая кластеризация (Liquid Clustering) – новая стратегия оптимизации размещения данных от Databricks. Что не так с Hive-разделением и Z-упорядочение таблиц в Delta Lake В озере данных физическое расположение данных может оказать...

05Окт
2023

API Pandas в Apache Spark: возможности и опасности

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Python pandas, PySpark Spark pandas примеры курсы обучение, разработка приложений Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Каждому специалисту по Data Science и инженеру данных знакома Python-библиотека pandas. Однако, для работы с большими данными она не очень подходит из-за высокого потребления памяти. Тем не менее, отказаться от старых привычек сложно. Поэтому разбираемся, зачем использовать API Pandas в Apache Spark и как это сделать наиболее эффективно. Чем отличается...

21Сен
2023

Почему производительность Apache Flink выше Spark: 5 главных причин

Автор Анна Вичуговав категории Flink, Spark, Блог

Spark vs Flink, сходства и различия Spark vs Flink, Flink примеры курсы обучение, курсы Spark, обучение Apache Spark, Spark SQL курсы обучение примеры, Spark vs Flink сравнение, Apache Spark Flink для инженеров и разработчиков, анализ больших данных с Apache Spark Flink, аналитика Big Data с Apache Spark Flink курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Из-за чего приложения Flink работают быстрее Spark: разница в моделях обработки данных, управлении памятью, методах оптимизации, дизайне API и личный опыт использования. Apache Flink vs Spark: сходства и отличия Apache Spark и Flink считаются наиболее популярными фреймворками разработки распределенных приложений в области Big Data. Они достаточно похожи, что мы ранее...

20Сен
2023

Чем Scala лучше Java для разработки Spark-приложения: ТОП-5 преимуществ

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Scala vs Java vs Python, PySpark Spark Scala Java JVM примеры курсы обучение, разработка приложений Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как разница между Scala и Java отражается на работе Spark-приложения, почему код на Scala работает быстрее и когда выбирать этот язык программирования для разработки приложений аналитики больших данных. Scala vs Java: ключевые отличия Хотя Apache Spark позволяет разработчику писать код на нескольких языках программирования (Scala, Java, R, Python), сам фреймворк...

15Сен
2023

Apache Spark 3.5.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.5.0 обновления и улучшения, PySpark Spark SQL примеры курсы обучение, машинное обучение Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

13 сентября 2023 года вышел Apache Spark 3.5. Знакомимся с самыми важными новинками свежего релиза: расширения Spark Connect и SQL, поддержка DeepSpeed, улучшения потоковой передачи и свежие UDF-функции Python. ТОП-5 новинок Apache Spark 3.5.0 В Apache Spark 3.5. добавлено много исправлений и улучшений, а также реализованы новые функции. Наиболее интересными...

09Сен
2023

Что такое SPIP: 4 предложения по улучшению Apache Spark

Автор Анна Вичуговав категории Spark, Блог

улучшения и развитие Apache Spark , Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие улучшения Apache Spark опубликованы в 2023 году и как подать свое предложение по улучшению самого популярного вычислительного движка в стеке Big Data. Что такое SPIP и как подать свое предложение по улучшению фреймворка В любом продукте помимо ошибок есть также предложения по улучшению. В Apache Spark они...

02Сен
2023

Apache AirFlow vs Spark в Databricks для оркестрации рабочих процессов

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Apache Spark AirFlow дата-инженер примеры курсы обучение, анализ данных Spark, Spark дата-инженерия Apache AirFlow примеры курсы обучение, Spark Databrics AirFlow сравнение что лучше, оркестрация процессов с Apache Spark в Databricks и AirFlow примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем отличается оркестрация ETL-процессов в Databricks и Apache AirFlow: принципы работы, достоинства и недостатки, а также что выбирать дата-инженеру для решения практических задач. Apache AirFlow vs Spark в Databricks: сходства и отличия Облачная платформа Databricks, основанная на Apache Spark, предлагает пользователям единую среду для создания, запуска и управления различными рабочими...

30Авг
2023

Программируй на английском: ИИ-SDK для PySpark от Databricks

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

LLM AI MLOps Spark, MLOPS PySpark-AI примеры курсы обучение, Spark примеры курсы обучение AI ИИ, PySpark-AI English SDK Databricks курсы Machine Learning для дата-инженеров и аналитиков, обучение Machine Learning Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как получать результаты обработки данных с помощью Apache Spark, адресуя ИИ бизнес-запросы на английском языке: знакомимся с English SDK от Databricks. Настоящий Low Code с PySpark-AI. English SDK for Apache Spark и PySpark-AI: как это работает Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только...

19Авг
2023

Отладка PySpark-приложений: журнал регистрации событий

Автор Анна Вичуговав категории Spark, Блог

отладка тестирование логирование PySpark, Spark логирование отладка примеры курсы обучение, Apache Spark для разработчиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим особенности отладки PySpark-приложений: как Python-код исполняется в JVM, какие сложности возникают у разработчика при тестировании и исправлении ошибок в программе, написанной локально и запускаемой в кластере, а также как настроить вывод событий в лог-файл. Запуск и выполнение PySpark-кода Хотя Apache Spark и имеет Python API, позволяя писать код...

15Авг
2023

Как проект Lightspeed от Databricks делает Apache Spark еще быстрее: асинхронное управление смещениями

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В прошлом году Databricks выпустили новый проект для ускорения потоковой передачи в Apache Spark. Сегодня рассмотрим, как именно Lightspeed сокращает задержку в операционных рабочих нагрузках Structured Streaming с помощью асинхронного управления смещением. Операционные рабочие нагрузки и что их тормозит в Apache Spark Structured Streaming Рабочие нагрузки потоковой передачи можно разделить...

10Авг
2023

Регулярные выражения в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

регулярные выражения PySpark, Spark SQL примеры курсы обучение, Apache Spark Для аналитиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Каждый дата-инженер и аналитик данных активно использует регулярные выражения для поиска значений в тексте по заданному шаблону. Сегодня рассмотрим, как это сделать с функциями regexp_replace(), rlike() и regexp_extract в Apache Spark на примере небольшого PySpark-приложения. Как работает функция regexp_replace() Регулярным выражением называется последовательность символов, задающая шаблон соответствия в тексте. Например,...

01Авг
2023

Алиасы столбцов и параметризованные SQL-запросы в Apache Spark 3.4

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4 SQL примеры, алиасы столбцов и параметры SQL-запросов в Apache Spark, Apache Spark простые примеры SQL-запросов, PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чем полезны новые фичи Apache Spark SQL, выпущенные в релизе 3.4. Разбираемся с псевдонимами столбцов и параметризованными SQL-запросами на простых примерах, запуская Spark-приложение в Google Colab. Псевдонимы столбцов Хотя с момента выхода Apache Spark 3.4 в апреле 2023 года, о чем мы писали здесь, прошло почти полгода, возможность ссылаться на...

28Июл
2023

Horovod на Databricks для MLOps в глубоком обучении

Автор Анна Вичуговав категории Machine Learning, Блог

глубокое обучение Deep Learning примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, Horovod MLOps Databricks, ML MLOps Deep Learning Machine Learning, Deep Learning vs Machine Learning, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Из чего состоит инфраструктура глубокого обучения Databricks и как масштабировать Deep Learning для нескольких графических процессоров или распределенных вычислений. Знакомимся с очередным MLOps-инструментом под названием Horovod. Что Horovod и как его использовать в Databricks Мы уже писали, почему глубокому обучению не обойтись без MLOps-инструментов, реализующих идеи DevOps для автоматизации разработки,...

25Июл
2023

5 уязвимостей Apache Spark за последние 3 года

Автор Анна Вичуговав категории Spark, Блог

уязвимости безопасность Spark-приложений, обучение Spark, курсы Apache Spark для разработчиков примеры обучение, безопасность spark приложений, проблемы с безопасностью Spark-приложений, Spark app security, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

От межсайтового скриптинга до внедрения вредоносного кода: какие проблемы информационной безопасности были обнаружены и исправлены в Apache Spark в 2023, 2022 и 2021 годах. Последние известные и исправленные проблемы информационной безопасности Apache Spark Недавно мы писали о механизмах обеспечения информационной безопасности в Apache Spark. Однако, несмотря на наличие этих средств,...

17Июл
2023

Apache Spark 3.4.1: обзор отладочного релиза, выпущенного в июне 2023

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4.1 новые возможности, Apache Spark 3.4.1 обзор релиза, Spark Structured Streaming SQL PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

23 июня 2023 года опубликован очередной релиз Apache Spark 3.4.1, который считается отладочным выпуском для предыдущего, содержащий исправления стабильности. Помимо исправления ошибок, в нем также 16 новых фичей и более 20 улучшений, самые главные из которых мы рассмотрим далее. Исправления ошибок и новые фичи Apache Spark 3.4.1 Поскольку выпуск считается...

06Июл
2023

Spark Connect в релизе 3.4: новые возможности для разработчика

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, Spark Connect, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что в выпуске 3.4.0 от апреля 2023 года Spark Connect представил несвязанную архитектуру клиент-сервер, которая обеспечивает удаленное подключение к кластерам Spark из любого приложения, работающего в любом месте. Сегодня рассмотрим подробнее, как это работает и каковы плюсы для практического использования. Что такое Spark Connect и зачем это...

28Июн
2023

DLQ в Kafka для AVRO-сообщений в Spark-приложении с библиотекой ABRiS

Автор Анна Вичуговав категории Kafka, Spark, Блог

Spark Streaming Kafka ABRiS примеры курсы обучение, Spark SQL курсы, Apache Spark для разработчиков, Spark Streaming Kafka примеры курсы обучение, DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про лучшие практики работы с очередями недоставленных сообщений в Apache Kafka. Сегодня рассмотрим, как реализовать DLQ для AVRO-сообщений в приложении Spark Streaming c библиотекой ABRiS. DLQ для Apache Kafka в Spark-приложении Ситуация, когда приложение-продюсер вдруг изменяет формат или схему данных, публикуемых в Apache Kafka, на практике случается....

22Июн
2023

Аккумуляторы в Apache Spark: что это и как их использовать?

Автор Анна Вичуговав категории Spark, Блог

аккумуляторы и широковещательные переменные Spark, Spark Разработка распределенных приложений примеры курсы обучение, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое аккумуляторы в Apache Spark, чем они отличаются от широковещательных переменных и какова польза от этих концепций при разработке распределенных приложений и их использовании в кластере. Широковещательные переменные vs аккумуляторы В любой распределенной среде возникает задача сведения локальных результатов вместе. На практике, ее решение не всегда является простым. Например,...