Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

24Дек
2023

Когда развернуть еще один кластер Apache Kafka и как им управлять?

Автор Анна Вичуговав категории Kafka, Блог

управление корпоративными кластерами Apache Kafka, администрирование кластера Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что лучше: один или несколько кластеров Apache Kafka, когда и зачем разворачивать новый кластер вместо масштабирования существующего, какие задачи администрирования поручить локальным DevOps-инженерам, а что решать централизовано. Один или несколько кластеров Apache Kafka? Продолжая разговор про эффективное управление корпоративным кластером Apache Kafka, сегодня рассмотрим, когда и зачем нужно разворачивать новый...

23Дек
2023

Лучшие практики работы с XCom и триггерами в Apache AirFlow: ТОП-10 советов

Автор Анна Вичуговав категории AirFlow

AirFlow лучшие практики проектирования конвейера данных, AirFlow примеры курсы обучение, AirFlow для дата-инженера, XCom правила триггера настройка задач AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем, как повысить эффективность использования объектов XCom в Apache AirFlow и сделать свои конвейеры обработки данных еще более гибкими с помощью настройки триггерных правил. Возможности TaskFlow API для XCom Объекты XCom позволяют задачам DAG в Apache AirFlow обмениваться данными. Это очень удобно для реализации конвейера с атомарными задачами, которые...

22Дек
2023

Как настроить оборудование для ускорения работы Apache Spark

Автор Анна Вичуговав категории Spark

тюнинг оборудования в кластере Spark , Apache Spark для разработчика и администратора кластера, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Зачем размещать задания Apache Spark на узлах HDFS, какую пропускную способность сети передачи данных выбрать, почему не рекомендуется использовать RAID для жестких дисков, сколько выделить памяти и ядер ЦП. Рекомендации по настройке оборудования для Spark-приложений На практике большинство заданий Spark считывает входные данные из внешней системы хранения, например, файловой системы...

21Дек
2023

Еще одна архитектура данных: Streamhouse с Apache Paimon

Автор Анна Вичуговав категории Flink

архитектура данных, Streamhouse Apache Flink Paimon, DWH Data Lake Delta Lake архитектура хранилища данных, обучение дата-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Что не так с архитектурой данных Lakehouse, зачем разработчики Apache Flink создали на основе табличного хранилища новую дата-платформу, чем хорош подход Streamhouse и как устроен Apache Paimon. Что такое архитектура данных Streamhouse Не успели дата-архитекторы освоиться с Lakehouse – архитектурой данных, которая объединяет преимущества хранилищ и озер данных, комбинируя масштабируемость...

20Дек
2023

Профилирование PySpark-кода: пример с приложением Apache Spark для Python-разработчика

Автор Анна Вичуговав категории Spark

Профилирование PySpark, отладка Spark-приложения, Apache Spark Для разработчиков примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое профилирование кода, зачем это нужно и как работают Python-профилировщики в приложениях Apache Spark. Пример профилирования PySpark-программы. Что такое профилирование и почему это важно для PySpark-приложений Будучи написанном на java и Scala, Apache Spark также поддерживает декларативные API-интерфейсы Python, которые позволяют разработчику писать и запускать код на этом более...

19Дек
2023

Словари в ClickHouse

Автор Анна Вичуговав категории ClickHouse, NoSql

ClickHouse словари, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Что такое словарь в ClickHouse, какие бывают словари, как их создать и каким командами к ним обращаться. Пара примеров со словарями в самой популярной колоночной аналитической СУБД. Что такое словарь в ClickHouse Как колоночная база данных, ClickHouse предназначена для аналитической обработки огромных объемов данных в реальном времени. Аналитические сценарии предполагают...

18Дек
2023

Централизация или независимость: стратегия управления корпоративным кластером Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Стратегии управления корпоративными кластерами Apache Kafka, администрирование кластера Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что выбрать для эффективного управления корпоративным кластером Apache Kafka, от чего зависит уровень централизации и какие факторы влияют на принятие решений. Стратегии управления корпоративным кластером Apache Kafka Типовой вариант использования Apache Kafka – это потоковая интеграция корпоративных приложений. Чтобы эффективно использовать эту платформу потоковой передачи событий в масштабах предприятия, необходимо...

17Дек
2023

Параллельная среда выполнения и блочный формат хранения данных в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

обработка данных в Neo4j, NoSQL Neo4j графовая СУБД примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как разработчики Neo4j улучшают производительность этой графовой СУБД с помощью нового блочного формата хранения данных и параллельной среды выполнения Cypher-запросов. Блочный формат хранения данных Наиболее важной новинкой Neo4j в релизе 5.14, вышедшего в конце ноября 2023 года, стал новый формат хранения данных – блочный, который размещает данные на диске в...

15Дек
2023

Миграция данных в Greenplum: риски и возможности

Автор Анна Вичуговав категории Greenplum, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, Greenplum администрирование миграция данных, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Как выполнить миграцию данных: лучшие практики и рекомендации на примере Greenplum. Особенности и принципы работы утилит gpbackup, gprestore и gpcopy. Миграция данных из Greenplum на 7 с утилитами gpbackup и gprestore Независимо от причины миграции данных из прикладной системы или корпоративного хранилища данных на новую технологию, эта процедура всегда остается...

14Дек
2023

Проектирование хранилища данных с методологией Data Vault в архитектуре Lakehouse

Автор Анна Вичуговав категории NoSql, Блог

Data Vault Lakehouse архитектура данных проектирование, курсы архитектор DWH, обучение архитектор DWH, Data Vault Lakehouse примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Преимущества методологии Data Vault для проектирования архитектуры данных Lakehouse, а также лучшие практики ее использования с максимальной эффективностью для корпоративного хранилища. Принципы методологии Data Vault и их применение к проектированию DWH Существует множество различных методологий проектирования данных, которые можно использовать при разработке аналитической системы, например, модели звезды и снежинки, подходы...