Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Авг
2021

ADB-Spark Connector: интеграция Spark и Greenplum от Аренадата

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

обучение Аренадата, курсы Аренадата, обучение Arenadata DB, курсы Arenadata DB, обучение Greenplum, курсы Greenplum, обучение Spark, курсы Spark, интеграция Greenplum и Spark, аналитика больших данных для инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про коннектор Greenplum-Spark, 2-я версия которого вышла в октябре 2020 года. А сегодня рассмотрим российскую альтернативу для отечественной MPP-СУБД Arenadata DB на базе Greenplum, выпущенную компанией Аренадата в июле 2021 года. Краткий обзор ADB-Spark Connector: архитектура, принципы работы, сценарии использования, а также отличия от PXF-фреймворка и варианта...

27Июл
2021

Tez vs Spark: что выбрать для Apache Hive

Автор Анна Вичуговав категории Hive, Spark, Блог

Tez vs Spark for Hive, обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются эти механизмы и какой из них выбирать в разных случаях использования. Что такое Apache Tez и как он работает с...

26Июл
2021

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Анна Вичуговав категории Hive, Блог

обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию SQL-запросов в этом NoSQL-хранилище. Смотрите, чем полезна векторизация HiveQL-операций, какие форматы файлов обрабатываются быстрее, почему денормализация данных в Hive –...

23Июл
2021

5 вопросов про масштабирование Spark-приложений

Автор Анна Вичуговав категории Spark, Блог

Spark SQL, масштабирование Spark приложений, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы по Spark еще больше практических кейсов, сегодня ответим на самые частые вопросы относительно масштабирования распределенных приложений, написанных с помощью этого фреймворка. Читайте далее о пользе динамического распределения, оптимальном выделении ресурсов на драйверы и исполнители, а также каковы тонкости управления разделами в Apache Spark. Лебедь, рак...

16Июл
2021

JVM Garbage Collection и не только: 7 причин OOM-ошибки в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Spark SQL OOM Garbage Collector, сборка мусора JVM Spark SQL Out of Memory Error, утечки памяти в Spark-приложениях, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Обучая разработчиков Big Data, сегодня рассмотрим, почему в распределенных приложениях Apache Spark случаются OOM-ошибки. Читайте далее, как работает сборка мусора JVM в Spark-приложениях, почему из-за нее случаются утечки памяти и что можно сделать на уровне драйвера и исполнителя для предупреждения OutOfMemoryError. Сборка мусора JVM и OOM-ошибки в Spark-приложениях На практике...

08Июл
2021

Что посмотреть в Apache Spark UI: 5 полезных кейсов для разработчика Big Data

Автор Анна Вичуговав категории Spark, Блог

Spark GUI, Spark SQL для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье по обучению Apache Spark рассмотрим, чем графический веб-интерфейс этого фреймворка полезен разработчику распределенных приложений. Читайте далее, где посмотреть кэшированные данные, визуализацию DAG, переменные среды, исполняемые SQL-запросы, а также прочие важные метрики кластерных вычислений и аналитики больших данных. 9 страниц Apache Spark UI Apache Spark предоставляет набор пользовательских...

02Июл
2021

RocksDB как хранилище состояний для stateful-приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop Для инженеров данных и разработчиков курсы, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что приложения Kafka Streams используют RocksDB в качестве хранилища состояний. Сегодня рассмотрим, как это key-value NoSQL-СУБД используется для разработки stateful-приложений Apache Flink. Читайте далее о преимуществах и особенностях применения RocksDB для управления состоянием Flink-приложения, а также заблуждениях, связанных с этими фреймворками. 3 бэкенда Apache Flink для хранения...

30Июн
2021

Что не так с UDF-функциями в Apache Spark SQL и как это исправить

Автор Анна Вичуговав категории Spark, Блог

Spark SQL UDF примеры, оконные функции Spark SQL, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по Apache Spark для разработчиков, сегодня рассмотрим пользовательские функции и особенности работы с ними в API SQL-модуле этого фреймворка. Читайте далее про идемпотентность UDF-функций и их влияние на распределение данных в кластере Apache Spark. Как устроены UDF в Apache Spark: краткий ликбез Пользовательские функции (User Defined Functions,...

25Июн
2021

Особенности оконных функций и кэширования датафреймов в Apache Spark SQL

Автор Анна Вичуговав категории Spark, Блог

Spark SQL примеры, оконные функции Spark SQL, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Apache Spark, сегодня рассмотрим еще несколько интересных особенностей этого фреймворка, ограничивающих его типовые возможности и на PySpark-примерах разберем, как с этим бороться. Читайте далее, что такое оконные функции и зачем они нужны, как сортировка влияет на фрейм окна в Spark SQL и чем опасны действия над...

24Июн
2021

Еще 3 причуды API DataFrame в Apache Spark, о которых вы не знали

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Spark еще более полезными, мы рассказываем о неочевидных тонкостях этого фреймворка, знание которых позволит разработчику распределенных приложений использовать возможности этой технологии более эффективно. Сегодня на практических примерах PySpark в API DataFrame рассмотрим разницу между функциями сортировки массивов и особенности объединения контенкации, а также разберемся...