Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

06Мар
2021

Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark

Автор Анна Вичуговав категории Spark, Блог

SnappyData TIBCO ComputeDB on SparkSpark, курсы по Spark, Apache Spark для разработчиков и инженеров данных курсы обучение, обучение Big Data, Spark SQL курсы

Недавно мы уже упоминали о некоторых продуктах на базе Apache Spark. Продолжая обучение основам Big Data, сегодня рассмотрим, что такое SnappyData или TIBCO ComputeDB и как это связано с популярным фреймворком разработки распределенных приложений аналитики больших данных. Кому и зачем нужны дополнительные решения поверх Apache Spark При всей популярности Apache Spark,...

04Мар
2021

Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров

Автор Анна Вичуговав категории Spark, Use Cases, Блог

ETL pipeline Spark, курсы по Spark, Apache Spark для инженеров данных курсы обучение, экономика больших данных, Big Data AWS Spark Livy

Дополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру данных пригодятся SaaS-продукт Prophecy.io, движок StreamSets Transformer и REST-интерфейс Apache Livy, а также как все они связаны со Spark. 3...

01Мар
2021

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming and Kafka data pipeline, курсы по Spark, Apache Spark Для разработчиков и инженеров данных, Apache Spark для инженеров, данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и глобальных сетей. Читайте далее, как создать надежный конвейер и устойчивое озеро данных (Data Lake) для быстрой аналитики Big Data в...

27Фев
2021

Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Apache Spark Для инженеров данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Продолжая вчерашний разговор про оптимизацию Spark-приложений в облачном кластере Amazon Web Services, сегодня рассмотрим типовую последовательность действий по конфигурированию заданий и настройке узлов для снижения затрат на аналитику больших данных. А также разберем, какие проблемы с памятью исполнителей могут при этом возникнуть, и как инженеру Big Data их решить. Еще...

25Фев
2021

Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений

Автор Анна Вичуговав категории Spark, Use Cases, Блог

В рамках обучения администраторов Apache Hadoop и инженеров Big Data, сегодня поговорим про стоимость аналитики больших данных с помощью Spark-приложений в облачном кластере Amazon Web Services и способы снижения этих затрат за счет конфигурирования заданий и настройки узлов. Читайте в этой статье, как число процессорных ядер в исполнителях Spark-заданий формирует...

21Фев
2021

Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Автор Анна Вичуговав категории Spark, Блог

spark sql bucketing, бакетирование таблиц Спарк и Хайв, курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization

Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как это предотвращает операции перетасовки в приложениях аналитики больших данных. Что такое Bucketing и зачем это нужно в Big Data Бакетирование...

15Фев
2021

Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и инженеров данных, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop,

Недавно мы уже рассказывали про ускорение целых аналитических конвейеров на Apache Spark и отдельных задач, а также рассматривали способы оптимизации Shuffle-операций в SQL-модуле этого Big Data фреймворка. Сегодня разберем, какие факторы провоцируют задержки в Spark-приложениях, и как дата-инженер может их найти, чтобы устранить причины и следствия этих проблем. Задержки Spark-приложений...

12Фев
2021

3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

Автор Анна Вичуговав категории Hive, Spark, Тесты

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии Big Data, решив кроссворд, филворд и небольшой тест по основным компонентам и главным принципам работы этой платформы хранения и аналитики...

11Фев
2021

Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата-инженеров, обучение инженеров данные, курсы Big Data инженер, курсы Apache Spark, обучение Spark, курсы Apache Kafka, обучение Kafka, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, облака

Хорошие курсы инженеров данных – это не просто обучение отдельной Big Data технологии, такой как Apache Hadoop, Spark или Kafka, а жизненные примеры их практического использования в реальном бизнесе. Поэтому сегодня мы приготовили для вас кейс оптимизации стоимости и скорости OLAP-аналитики больших данных в облачном Delta Lake на Amazon Web...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...