Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

08Сен
2022

ETL с Apache Spark в озере данных на MinIO

Автор Анна Вичуговав категории Spark, Блог

Spark-Select API MinIO, курсы дата-инженеров озеро данных Apache Spark MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

При том, что большинство современных озер данных представляют собой облачные объектные хранилища типа AWS S3, многие предприятия хранят данные в собственном кластере HDFS или даже MinIO. Поэтому сегодня специально для обучения дата-инженеров и ИТ-архитекторов рассмотрим, что представляет собой это хранилище и насколько хорошо с ним взаимодействует Apache Spark. Что такое...

07Сен
2022

Быстрая индексация данных в HDFS, Hadoop и Spark с библиотекой Dione от PayPal

Автор Анна Вичуговав категории Hive, Spark, Блог

Spark SQL Hive примеры курсы обучение дата-инженеров, бакетирование Spark SQL Hive, курсы Spark Hive Hadoop обучение, примеры Spark Hive обучение курсы, индексация в HDFS, Dione Spark Hive HDFS, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы по Apache Hadoop и Spark еще больше интересных примеров, сегодня рассмотрим кейс компании PayPal, которой удалось ускорить работу Hive с помощью open-source библиотеки Dione. Зачем индексировать данные в HDFS и как это сделать быстро. Трудности бакетирования в Hive и Spark Вычислительный движок Apache Spark отлично...

03Сен
2022

Большая проблема маленьких файлов в Apache Hadoop HDFS

Автор Анна Вичуговав категории HBase, Hive, Spark, Блог

Apache Hadoop HDFS Spark Hive проблемы примеры курсы обучение, аналитика больших данных с Apache Hadoop HDFS Spark Hive, HDFS примеры курсы обучение, SQL on Hadoop Hive Spark HDFS HBase, курсы дата-инженеров, обучение дата-инженер, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, что технологии Big Data ориентированы на работу с большими данными, а не множеством маленьких. Сегодня рассмотрим подробнее, почему Apache Hadoop, Spark и основанные на HDFS NoSQL-СУБД Hive и HBase плохо работают с большим количеством маленьких файлов, а также как это исправить. Почему HDFS плохо работает со множеством...

02Сен
2022

Применение SeaTunnel для управления SQL-заданиями Apache Flink и Spark

Автор Анна Вичуговав категории Flink, Spark, Блог

SeaTunnel Spark SQL Flink, курсы Apache Flink Spark SQL примеры обучение, Flink Spark SQL примеры обучение курсы, обучение большим данных, курсы по flink Spark SQL , обучение Apache Hadoop Flink Spark SQL, Flink Spark SQL, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, курсы Spark SQL примеры обучение, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Мы регулярно добавляем в наши курсы по Apache Flink и Spark для дата-инженеров полезные материалы и инструменты, которые помогают повысить эффективность разработки и эксплуатации приложений аналитики больших данных. Читайте далее, что такое SeaTunnel и как эта высокопроизводительная платформа интеграции распределенных данных упрощает их потоковую синхронизацию средствами SQL-заданий Apache Flink и...

29Авг
2022

Динамическое партиционирование в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений рассмотрим, что такое динамическое партиционирование таблиц в Apache Spark, зачем это нужно и как реализовать такие вставки разделов. Разбираем на практическом примере. Что такое динамическое партиционирование в Apache Spark Партиционирование – это разделение данных на основе значения столбца и их сохранение...

22Авг
2022

LIMIT vs TABLESAMPLE: битва операторов Spark SQL

Автор Анна Вичуговав категории Spark, Блог

Сегодня рассмотрим особенности использования оператора LIMIT в Spark SQL: как он выполняется и почему вместо него лучше использовать оператор TABLESAMPLE. Для этого в рамках обучения дата-инженеров, разработчиков распределенных приложений и аналитиков данных заглянем под капот оптимизатора Catalyst в Apache Spark и сравним физические планы выполнения SQL-запросов. Недостатки оператора LIMIT в...

17Авг
2022

Под капотом Lakesoul: как устроено табличное хранилище на Apache Spark

Автор Анна Вичуговав категории Spark, Блог

LakeSoul, архитектура данных, обучение архитекторов Big Data примеры курсы обучение, LakeHouse DWH примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про Lakesoul – новое унифицированное решение для хранения потоковых и пакетных таблиц, которое реализует архитектуру данных LakeHouse. Сегодня заглянем под капот этого унифицированного механизма на базе Apache Spark и разберемся с преимуществами его последнего релиза. Как работает LakeSoul: краткий обзор Напомним, LakeSoul от команды DMetaSoul представляет собой...

14Авг
2022

Доступ к данным через ODBC и JDBC-драйверы в Spark-приложениях

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL JDBC ODBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений и дата-инженеров разберем, как Spark-задание может подключиться к базе данных через JDBC и ODBC драйверы. В качестве примера рассмотрим код на PySpark и Python-библиотеки pyodbc, а также JDBC-коннекторы в Spark SQL. Доступ к БД из кластера Spark с ODBC-драйвером Напомним, получить соединение с...

11Авг
2022

Интеграция Nebula Graph с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Nebula Graph Apache Spark, курсы Spark для Data Science анализ данных дата-инженеров, обучение Apache Spark, Spark ML GraphX GraphFrames, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое Nebula Graph и как использовать мощные возможности обработки графов этой NoSQL-СУБД в сочетании с Apache Spark, одним из самых популярных механизмов анализа данных. Что такое Nebula Graph и как это работает Nebula Graph — это...

08Авг
2022

Вместо Iceberg, Hudi и Delta Lake: хранение потоковых и пакетных таблиц с LakeSoul

Автор Анна Вичуговав категории Spark, Блог

Сегодня рассмотрим новое унифицированное решение для хранения потоковых и пакетных таблиц, созданное на основе Apache Spark. Что такое Lakesoul, чем это лучше Apache Iceberg, Hudi и Deta Lake. Также разберем, в чем конкурентные преимущества этого табличного хранилища по сравнению с этими форматами открытых таблиц, включая поддержку upsert, управление метаданными и...

07Авг
2022

Take() вместо collect() и еще 2 совета по Apache Spark для дата-инженера

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы для дата-инженеров и разработчиков распределенных Spark-приложений интересные примеры, сегодня мы хотим поделиться с вами простыми, но эффективными приемами, как улучшить производительность этого вычислительного движка. Чем метод take() лучше collect() в Apache Spark, какие открытые инструменты помогут выполнить профилирование кода и как быстро прочитать множество маленьких...

06Авг
2022

Как определить задержку потребителя Apache Kafka в Spark Structured Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

обучение Spark SQL Structured Streaming Kafka PySpark примеры курсы обучение, разработка Spark Structured Streaming Kafka PySpark , Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и разработчиков распределенных приложений еще больше практических примеров, сегодня рассмотрим, как написать Python-код для вычисления задержки потребителя Apache Kafka, расширив типовой слушатель StreamingQueryListener, который есть в Java и Scala API библиотеки Spark Structured Streaming, но недоступен в PySpark. Проблема отставания потребителя Apache Kafka...

30Июл
2022

Как сделать ETL-конвейеры Spark-заданий в AWS EMR на 50% дешевле: кейс Duolingo

Автор Анна Вичуговав категории Spark, Блог

Как Cluster Autotuner от Sync для автонастройки кластера Spark в AWS EMR помог edtech-компании Duolingo снизить затраты на 55%. Полезный сервис для дата-инженера и администратора кластера, чтобы устранить неэффективную ручную настройку, обеспечив оптимальную стоимость, производительность и надежность распределенных вычислений без изменения кода. Дорогой Apache Spark на AWS EMR Duolingo –...

21Июл
2022

Под капотом Apache Spark: 3 секрета для дата-инженера и разработчика

Автор Анна Вичуговав категории Spark, Блог

Постоянно добавляя в наши курсы по Apache Spark полезные материалы, сегодня мы рассмотрим, что происходит под капотом этого вычислительного движка, чтобы помочь разработчикам распределенных приложений и дата-инженерам повысить его эффективность. Тонкости сериализации данных, компиляции SQL-запросов в JavaBytecode и сборка мусора. 2 библиотеки сериализации данных в Apache Spark В распределенных системах...

14Июл
2022

Улучшения Apache Spark Structured Streaming в проекте Lightspeed от Databricks

Автор Анна Вичуговав категории Spark, Блог

28 июня 2022 года в сотрудничестве с сообществом разработчиков Apache Spark компания Databricks анонсировала проект Lightspeed, новое поколение этого потокового движка. Читайте далее, что это такое и чем оно отличается от классического Apache Spark Structured Streaming. Потоковая обработка данных с Apache Spark Structured Streaming Потоковая передача событий весьма востребована современным...

11Июл
2022

Технологии и инструменты преобразования речи в текст

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps ML Распознавание речи, машинное обучение для дата-инженеры, курсы Machine Learning Kafka Spark AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и специалистов по Machine Learning еще больше практических примеров, сегодня рассмотрим, как построить ETL-конвейер для преобразования речи в текст с использованием Apache Kafka, Airflow и Spark. А также познакомимся с популярными фреймворками и готовыми сервисами распознавания речи. ETL-конвейер распознавания речи: используемые технологии Предположим,...

05Июл
2022

Spark vs Dask для Data Science-проектов

Автор Анна Вичуговав категории Spark, Блог

Spark vs Dask, обучение Data Science Dask Spark примеры курсы, машинное обучение Dask Spark примеры курсы, курсы Machine Learning Spark ML Dask, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберемся, когда для Data Science-проектов вместо Apache Spark, самого популярного вычислительного движка аналитики больших данных, стоить выбрать Dask – легковесную Python-библиотеку для параллельных вычислений. И, наоборот, в каких случаях инженер данных и Data Scientist получают преимущества, выбирая Spark. Что такое Dask и зачем он нужен Data Scientist’у Прежде чем...

29Июн
2022

3 способа прервать DAG lineage в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

DAG spark data lineage, происхождение данных Spark, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark инженерия данных, Apache Spark разработчик дата-инженер примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы говорили про трудности наблюдаемости данных вообще и возможности мониторинга их происхождения в Apache Spark. Сегодня рассмотрим, зачем дата-инженеру прерывать DAG lineage в Spark-приложениях и как это сделать. Что такое DAG lineage и зачем его прерывать? Напомним, Apache Spark использует концепция DAG для выполнения распределенных вычислений. Направленный ациклический граф...

27Июн
2022

Apache Spark 3.3.0: ТОП-10 новинок июльского релиза 2022

Автор Анна Вичуговав категории Spark, Блог

16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL до профилирования UDF на Python. Главные изменения Apache Spark 3.3.0 Apache Spark 3.3.0 — это четвертый релиз линейки 3.x, в...

24Июн
2022

Происхождение данных в Apache Spark со Spline и не только

Автор Анна Вичуговав категории Spark, Блог

Spline spark data lineage, происхождение данных Spark, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark инженерия данных, Apache Spark разработчик дата-инженер примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы рассказывали, почему важна наблюдаемость данных какие платформы помогают комплексно обеспечить все ее аспекты. В продолжение этой темы сегодня заглянем под капот происхождения данных в Apache Spark с помощью агента Spline и других способов. Трудности data lineage в Apache Spark Когда конвейер данных выходит из строя, дата-инженеру нужно скорее...