Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Авг
2021

ADB-Spark Connector: интеграция Spark и Greenplum от Аренадата

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

обучение Аренадата, курсы Аренадата, обучение Arenadata DB, курсы Arenadata DB, обучение Greenplum, курсы Greenplum, обучение Spark, курсы Spark, интеграция Greenplum и Spark, аналитика больших данных для инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про коннектор Greenplum-Spark, 2-я версия которого вышла в октябре 2020 года. А сегодня рассмотрим российскую альтернативу для отечественной MPP-СУБД Arenadata DB на базе Greenplum, выпущенную компанией Аренадата в июле 2021 года. Краткий обзор ADB-Spark Connector: архитектура, принципы работы, сценарии использования, а также отличия от PXF-фреймворка и варианта...

01Авг
2021

Основы Hadoop HDFS для начинающих администраторов: как вывести узел из кластера без потери данных

Автор Анна Вичуговав категории Use Cases, Блог

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает HDFS, обслуживание узлов в кластере Apache Hadoop? курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Hadoop – высоконадежная экосистема хранения и аналитики больших данных, отказы случаются и в ней. Сегодня в рамках обучения начинающих администраторов и разработчиков Hadoop разберем, какие типы сбоев возможны в распределенной файловой системе HDFS и механизмы их предупреждения, а также рассмотрим процедуру вывода узлов из кластера для...

28Июл
2021

100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka, SerDe Apache Kafka AVRO JSON, обучение разработчиков курсы Apache Kafka, курсы по Kafka, обучение Kafka, разработка потоковых приложений Kafka, обработка больших данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать тонкости сериализации данных в Apache Kafka на практических примерах, сегодня рассмотрим кейс индийской ИТ-компании Naukri Engineering о повторной обработке сообщений и особенностях форматов. Читайте далее, чем хороши заголовки Kafka и почему их не так просто использовать, а также зачем писать свой сериализатор с десериализатором для достижения 100%-ного SLA....

27Июл
2021

Tez vs Spark: что выбрать для Apache Hive

Автор Анна Вичуговав категории Hive, Spark, Блог

Tez vs Spark for Hive, обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются эти механизмы и какой из них выбирать в разных случаях использования. Что такое Apache Tez и как он работает с...

26Июл
2021

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Анна Вичуговав категории Hive, Блог

обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию SQL-запросов в этом NoSQL-хранилище. Смотрите, чем полезна векторизация HiveQL-операций, какие форматы файлов обрабатываются быстрее, почему денормализация данных в Hive –...

23Июл
2021

5 вопросов про масштабирование Spark-приложений

Автор Анна Вичуговав категории Spark, Блог

Spark SQL, масштабирование Spark приложений, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы по Spark еще больше практических кейсов, сегодня ответим на самые частые вопросы относительно масштабирования распределенных приложений, написанных с помощью этого фреймворка. Читайте далее о пользе динамического распределения, оптимальном выделении ресурсов на драйверы и исполнители, а также каковы тонкости управления разделами в Apache Spark. Лебедь, рак...

20Июл
2021

Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Streams KSQL, SerDe Apache Kafka Streams Confluent Cloud, обучение разработчиков курсы Apache Kafka, курсы по Kafka Streams, обучение Kafka, разработка потоковых приложений Kafka, обработка больших данных с Apache Kafka KSQL, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим проблему обработки больших сообщений в Apache Kafka Streams и способы ее решения с помощью средства сериализации и десериализации (SerDe) от немецкой ИТ-компании Bakdata. Узнайте, почему максимального лимита конфигурации max.message.bytes не хватает, зачем и как приложение Kafka Streams материализует данные, а также каким образом kafka-s3-backed-serde читает и записывает большие...

19Июл
2021

Читаем планы SQL-запросов Greenplum на практическом примере и разбираемся с операциями

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров и аналитиков больших данных, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный Центр Коммерсант

В недавней статье про оптимизацию SQL-запросов в Greenplum мы рассказывали про планы их выполнения и операторы просмотра этих планов. Сегодня разберем подробнее, какие операции с данными могут встретиться в отчете, сгенерированном командой EXPLAIN, а также рассмотрим, чем эта информация полезна дата-инженеру и аналитику данных. 5 операций в плане выполнения SQL-запросов...

16Июл
2021

JVM Garbage Collection и не только: 7 причин OOM-ошибки в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Spark SQL OOM Garbage Collector, сборка мусора JVM Spark SQL Out of Memory Error, утечки памяти в Spark-приложениях, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Обучая разработчиков Big Data, сегодня рассмотрим, почему в распределенных приложениях Apache Spark случаются OOM-ошибки. Читайте далее, как работает сборка мусора JVM в Spark-приложениях, почему из-за нее случаются утечки памяти и что можно сделать на уровне драйвера и исполнителя для предупреждения OutOfMemoryError. Сборка мусора JVM и OOM-ошибки в Spark-приложениях На практике...

13Июл
2021

Как устроен JDBC-коннектор источника Kafka Confluent и при чем здесь реестр схем

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Connect, JDBC коннектор Apache Kafka Connect Confluent, обучение разработчиков курсы Apache Kafka, курсы по Kafka Connect, обучение Kafka, разработка потоковых приложений Kafka, интеграция данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали пример потоковой передачи данных между реляционными СУБД с помощью готовых JDBC-коннекторов через cURL-вызовы к REST API Kafka Connect. Сегодня заглянем под капот такой интеграции и разберем подробнее, что именно представляет собой JDBC-коннектор источника Kafka от Confluent. Компоненты Kafka Confluent для потоковой интеграции данных: коннекторы и реестр схем...