Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

23Апр
2021

Как помочь Apache Spark SQL обрабатывать большие датасеты быстрее: 5 простых способов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Apache Spark, Spark SQL для разработчиков, оптимизация Spark SQL, курсы по большим данным для аналитиков и Data Scientist, обучение Big Data Analyst, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про практическое обучение разработчиков Apache Spark, сегодня рассмотрим пример повышения скорости выполнения SQL-запросов к большому датафрейму. Читайте далее, как определить и исправить асимметрию распределения данных по разделам, зачем добавлять контрольные точки в длинные DAG и в чем здесь опасность, чем хороша широковещательная трансляция, для чего фильтровать данные перед...

22Апр
2021

Как устранить дубли в датасете: 5 методов для разработчика Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, обучение Data Scientist, курсы Data Analyst, Школа Больших Данных Учебный центр Коммерсант

На практике каждый аналитик Big Data и Data Scientist часто сталкивается с удалением дублирующихся значений в датасете. Поэтому, чтобы добавить в наши курсы по Apache Spark еще больше полезных примеров, сегодня рассмотрим 5 простых способов решения этой востребованной задачи. Читайте далее, чем distinct() отличается от dropDuplicates(), а reduceByKey() - от...

12Апр
2021

Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT к Apache Spark, чтобы преобразовать данные в таблице Spark SQL на Amazon Glue со схемой поверх набора файлов в AWS...

09Мар
2021

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Kafka, обучение Кафка, курсы инженеров данных, курсы Spark, обучение Apache Spark, big data pipeline on Apache Kafka and Spark

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и других технологий Big Data. Читайте далее о преимуществах облачного Delta Lake от Databricks над традиционным Data Lake. Постановка задачи: финансовая...

06Мар
2021

Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark

Автор Анна Вичуговав категории Spark, Блог

SnappyData TIBCO ComputeDB on SparkSpark, курсы по Spark, Apache Spark для разработчиков и инженеров данных курсы обучение, обучение Big Data, Spark SQL курсы

Недавно мы уже упоминали о некоторых продуктах на базе Apache Spark. Продолжая обучение основам Big Data, сегодня рассмотрим, что такое SnappyData или TIBCO ComputeDB и как это связано с популярным фреймворком разработки распределенных приложений аналитики больших данных. Кому и зачем нужны дополнительные решения поверх Apache Spark При всей популярности Apache Spark,...

21Фев
2021

Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Автор Анна Вичуговав категории Spark, Блог

spark sql bucketing, бакетирование таблиц Спарк и Хайв, курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization

Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как это предотвращает операции перетасовки в приложениях аналитики больших данных. Что такое Bucketing и зачем это нужно в Big Data Бакетирование...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...

11Янв
2021

Ускоряем конвейеры Apache Spark: 3 простых способа

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Big Data, обучение Большие данные, курсы Spark SQL, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для инженеров данных

Сегодня рассмотрим несколько простых способов ускорить обработку больших данных в рамках конвейера задач Apache Spark. Читайте далее про важность тщательной оценки входных и выходных данных, рандомизацию рабочей нагрузки Big Data кластера и замену JOIN-операций оконными функциями. Оптимизируй это: почему конвейеры аналитической обработки больших данных с Apache Spark замедляются Обычно со...

08Янв
2021

Stateful-проблемы JOIN-операций в Apache Spark Structured Streaming и их решения

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, обработка данных, JOIN, Spark, SQL, Spark SQL

Недавно мы уже рассматривали выполнение Join-операций в Apache Spark SQL. Сегодня поговорим про особенности потокового соединения в модуле Structured Streaming этого популярного фреймворка аналитики больших данных. Читайте далее, в чем специфика внешних и внутренних соединений потоков Big Data в Apache Spark Structured Streaming, а также как и зачем Inner/Outer Join...

02Янв
2021

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Spark SQL, Delta Lake, Data Lake, Data Lake, Hadoop, HDFS, DBIO commit-protocol for Spark transactions by Databricks, курсы Hadoop, обучение Apache Hadoop

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big Data решений, компания Databricks, разработала собственный алгоритм. Читайте далее про сравнение протоколов фиксации заданий в Spark-приложениях: результаты оценки производительности и...