Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

03Июл
2022

Улучшение совместимости Greenplum и HDFS благодаря записи/чтению AVRO-файлов с PXF

Автор Анна Вичуговав категории Greenplum, Блог

интеграция Greenplum Hadoop HDFS PXF, Greenplum AVRO, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Arenadata DBкурсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим новую полезную фичу июньского выпуска Greenplum и обновления интеграционного фреймворка PXF, который обеспечивает интеграцию этой MPP-СУБД с внешними источниками и приемниками данных. Читайте далее, как PXF поддерживает запись данных в формате AVRO в Hadoop HDFS и хранилища объектов, а также чтение логических типов этого...

02Июл
2022

DWH + Data Lake или что такое LakeHouse

Автор Анна Вичуговав категории Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, Data Lake DWh LakeHouse примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения дата-инженеров и архитекторов корпоративных платформ и приложений аналитики больших данных, сегодня рассмотрим, что такое LakeHouse. Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты. Историческая справка: от DWH к Data Lake...

30Июн
2022

Мониторинг Flink-приложений: метрики JVM и RocksDB

Автор Анна Вичуговав категории Flink, Блог

мониторинг Flink приложений, метрики приложений Apache Flink, метрики JVM RocksDB для Apache Flink, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассматривали важность мониторинга приложений Apache Flink и говорили про метрики отслеживания задержки обработки данных в потоковых заданиях. Сегодня заглянем под капот этого фреймворка и разберем, какие показатели работы JVM, а также RocksDB особенно важны для дата-инженера и разработчика распределенных приложений. Метрики JVM во Flink-приложениях Напомним, основным языком разработки...

28Июн
2022

Управление купонами на скидки в маркетплейсе Trendyol с Apache Kafka и Couchbase

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka примеры курсы обучение, обучение дата-инженер Kafka, курсы Apache Kafka для разработчиков и дата-инженеров, Big Data Kafka маркетинг e-commerce кейсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример программы лояльности турецкого интернет-магазина Trendyol, где Apache Kafka и документо-ориентированная NoSQL-СУБД Couchbase используются для генерации купонов на скидки. Почему при большом объеме данных случаются проблемы тайм-аутов в Couchbase, как их решить и при чем здесь коннекторы к Apache Kafka. Архитектура системы управления купонами Trendyol – это популярный...

21Июн
2022

7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez

Автор Анна Вичуговав категории Hive, Блог

Spark vs Tez, обучение инженеров и аналитиков больших данных Apache Tez Hive Hadoop SQL, Apache Hive Hadoop SQL курсы обучение, курсы Hadoop NoSQL обучение Hive, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Для обучения дата-инженеров и аналитиков данных, сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez. Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять. 3 движка выполнения запросов в Apache Hive Напомним,...

11Июн
2022

Тонкости Map Join в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

курсы Hive, курсы Spark SQL, курсы NoSQL, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Spark SQL курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров, аналитиков данных и разработчиков распределенных приложений рассмотрим один из методов оптимизации SQL-запросов в Apache Hive. Что такое оператор MapJoin, в каких условиях и как он работает, чем выгоден для HiveQL-запросов и почему при его выполнении с движком Tez может возникнуть нехватка памяти. Что такое...

06Июн
2022

10 лучших практик для повышения эффективности Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как выполняются операции чтения и записи в Apache HBase, а также с помощью каких приемов можно их ускорить. Как рассчитать оптимальное количество регионов в таблице, зачем отключать версионирование, почему размер ключа строки должен быть небольшим и еще 7 полезных лайфхаков для администратора HBase-кластера. Оптимизация записи данных в Apache...

05Июн
2022

Пакетные транзакции в Neo4j: APOC vs native Cypher

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j APOC Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j , обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим особенности обработки пакетных транзакций в популярной графовой СУБД Neo4j . Когда вместо простых запросов встроенного SQL-подобного языка Cypher лучше использовать процедуры библиотеки APOC, чтобы избежать проблем с памятью или остановки обновлений. OOM, большие графы и пакетные транзакции в Neo4j...

28Май
2022

Детективная история про SCR-конфигурации HDFS в региональных серверах Apache HBase

Автор Анна Вичуговав категории HBase, Блог

В этой статье для обучения дата-инженеров и администраторов кластера Apache HBase разберем, почему региональные сервера могут работать некорректно при высокой нагрузке и при чем здесь SCR-конфигурация файловой системы Hadoop. Что такое Short-Circuit Read в HDFS и почему оно может снижать скорость потокового чтения в приложениях Spark Streaming. Постановка задачи: проблема...

26Май
2022

Как связать Apache Kafka с Hive: разбор интеграционного коннектора

Автор Анна Вичуговав категории Hive, Kafka, Блог

курсы Hive, курсы Kafka, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Kafka Streams курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, кому и зачем нужно связывать Apache Hive с Kafka, каким образом реализуется эта интеграция, как получить доступ к данным из платформы потоковой передачи событий средствами SQL-on-Hadoop, при чем здесь режимы Kerberos и механизмы безопасности Ranger. Зачем нужна интеграция Apache Hive с Kafka Необходимость связать Apache Hive с Kafka...