Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

16Фев
2024

Аутентификация и авторизация пользователей в Apache AirFlow

администрирование Apache AirFlow, безопасность Apache AirFlow, аутентификация и авторизация пользователей Apache AirFlow, управление пользователями Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем ограничивать доступ к папке с DAG и как это сделать: категории и роли пользователей в Apache AirFlow, способы входа в систему и конфигурации для настройки прав. Категории и роли пользователей Apache AirFlow Поскольку основным источником угрозы почти для любой информационной системы являются люди, при разработке методов обеспечения безопасности надо,...

03Фев
2024

4 стратегии мультирегионального развертывания Apache Kafka

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Завершая цикл статей про мультирегиональную репликацию кластеров Apache Kafka, сегодня поговорим про стратегии развертывания топологий, предлагаемых компанией Confluent. Принципы архитектуры, сравнение, сценарии, критерии выбора. Критерии выбора топологии репликации кластера Apache Kafka Для повышения надежности и производительность потоковой обработки данных с использованием Apache Kafka кластера этой платформы рекомендуется располагать в разных...

31Янв
2024

4 способа реализации мультирегиональной репликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Продолжая разговор про межрегиональную репликацию Apache Kafka, сегодня рассмотрим 4 способа ее реализации: мультирегиональный кластер, MirrorMaker 2, Cluster Linking в Confluent Server и Confluent Replicator. Чем георепликация Kafka с MirrorMaker 2 отличается от решений Confluent и что выбирать для различных сценариев. Мультирегиональный кластер Confluent Геораспределенная репликация реплицирует данные по кластерам...

27Янв
2024

2 решения Confluent для мультирегиональной георепликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Недавно мы писали про мультирегиональную репликацию Apache Kafka. Сегодня рассмотрим, как выполнить геораспределенную репликацию с помощью Cluster Linking в Confluent Server и Kafka Connect с Confluent Replicator. Cluster Linking для Apache Kafka Связанные кластеры представляют собой 2 или более кластера в разных географических регионах. В отличие от топологии растянутого кластера,...

24Янв
2024

Мультирегиональная репликация Apache Kafka: кластерные топологии

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Какую топологию может иметь кластер Apache Kafka при межрегиональной репликации по нескольким ЦОД и как это реализовать. Чем брокеры-наблюдатели отличаются от подписчиков в Confluent Server и при чем здесь конфигурация подтверждений acks в приложении-продюсере. Принципы репликации данных в Apache Kafka Будучи средством интеграции информационных систем в режиме реального времени, Apache...

20Янв
2024

Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат

Автор Анна Вичуговав категории Kafka

администрирование Kafka, стоимость эксплуатации Kafka, Apache Kafka для администратора кластера примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Какие инфраструктурные компоненты самые дорогие в эксплуатации популярной платформы потоковой передачи сообщений и как снизить затраты на сетевые ресурсы и хранилища данных при использовании Apache Kafka. TCO для Apache Kafka: что учитывать в расчете затрат Поскольку Apache Kafka используется для интеграции информационных систем в режиме реального времени, она становится критически...

24Дек
2023

Когда развернуть еще один кластер Apache Kafka и как им управлять?

Автор Анна Вичуговав категории Kafka, Блог

управление корпоративными кластерами Apache Kafka, администрирование кластера Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что лучше: один или несколько кластеров Apache Kafka, когда и зачем разворачивать новый кластер вместо масштабирования существующего, какие задачи администрирования поручить локальным DevOps-инженерам, а что решать централизовано. Один или несколько кластеров Apache Kafka? Продолжая разговор про эффективное управление корпоративным кластером Apache Kafka, сегодня рассмотрим, когда и зачем нужно разворачивать новый...

22Дек
2023

Как настроить оборудование для ускорения работы Apache Spark

Автор Анна Вичуговав категории Spark

тюнинг оборудования в кластере Spark , Apache Spark для разработчика и администратора кластера, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Зачем размещать задания Apache Spark на узлах HDFS, какую пропускную способность сети передачи данных выбрать, почему не рекомендуется использовать RAID для жестких дисков, сколько выделить памяти и ядер ЦП. Рекомендации по настройке оборудования для Spark-приложений На практике большинство заданий Spark считывает входные данные из внешней системы хранения, например, файловой системы...

18Дек
2023

Централизация или независимость: стратегия управления корпоративным кластером Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Стратегии управления корпоративными кластерами Apache Kafka, администрирование кластера Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что выбрать для эффективного управления корпоративным кластером Apache Kafka, от чего зависит уровень централизации и какие факторы влияют на принятие решений. Стратегии управления корпоративным кластером Apache Kafka Типовой вариант использования Apache Kafka – это потоковая интеграция корпоративных приложений. Чтобы эффективно использовать эту платформу потоковой передачи событий в масштабах предприятия, необходимо...

15Дек
2023

Миграция данных в Greenplum: риски и возможности

Автор Анна Вичуговав категории Greenplum, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, Greenplum администрирование миграция данных, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Как выполнить миграцию данных: лучшие практики и рекомендации на примере Greenplum. Особенности и принципы работы утилит gpbackup, gprestore и gpcopy. Миграция данных из Greenplum на 7 с утилитами gpbackup и gprestore Независимо от причины миграции данных из прикладной системы или корпоративного хранилища данных на новую технологию, эта процедура всегда остается...

07Дек
2023

Как повысить надежность кластера Apache Kafka: сбои публикации и стратегии их устранения

Автор Анна Вичуговав категории Kafka, Блог

Kafka надежность отказоустойчивость администрирование, Apache Kafka безопасность, Kafka для разработчиков и дата-инженеров, администратор кластера Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Какие меры принять администратору кластера Apache Kafka, чтобы повысить надежность потоковой экосистемы, использующей эту распределенную платформу как средство интеграции различных приложений. Сбои в потоковой экосистеме и способы их устранения Хотя Apache Kafka считается высоконадежной системой благодаря множеству встроенных механизмов отказоустойчивости, таким как репликация и перевыборы лидера. Впрочем, это не исключает...

23Ноя
2023

Оптимизация использования RocksDB и параллелизма в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink приложения, Flink RocksDB, Flink параллелизм заданий, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Почему хранить состояния Flink-приложений лучше на локальных SSD-диски, а не на твердотельных накопителях с удаленной файловой системой NFS или HDFS, зачем отключать блочный кэш RocksDB и как настроить параллелизм заданий. Проблемы сохранения состояния в RocksDB и способы их решения Как мы уже упоминали здесь, key-value хранилище RocksDB является самым популярным...

21Ноя
2023

Параметры настройки для масштабирования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

масштабирование Apache AirFlow, падение производительности AirFlow, почему падает производительность Apache Airflow и что делать, Apache Airflow для дата-инженера и администратора кластера, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Ранее мы писали про проблемы повышения производительности Apache AirFlow и каковы их причины. В продолжение этой темы сегодня рассмотрим, как настроить этот ETL-оркестратор, чтобы избежать подобных ситуаций и масштабировать кластер в соответствии с нагрузкой. Настройка AirFlow на уровне среды Как мы уже отмечали, Apache AirFlow отлично масштабируется, обеспечивая высокую производительность...

11Ноя
2023

Масштабирование Apache AirFlow: причины, риски и возможности

Автор Анна Вичуговав категории AirFlow, Блог

Когда и почему нужно повышать производительность Apache AirFlow, как исполнитель влияет на масштабирование этого ETL-оркестратора. Почему падает производительность AirFlow и что с этим делать Типичными проблемами, которые требуют масштабирования кластера AirFlow, являются медленный доступ к файлам, недостаточный контроль над возможностями DAG, нерегулярные уровни трафика и конкуренция за ресурсы между рабочими...

08Ноя
2023

Apache Kafka 3.6: что нового?

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и администраторов, Apache Kafka 3.6.0 обзор релиза, Apache Kafka примеры курсы обучение, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

10 октября 2023 года вышел очередной релиз самой популярной распределенной платформы потоковой передачи событий. Знакомимся с главными новинками Apache Kafka 3.6.0: промышленная поддержка KRaft вместо ZooKeeper, оптимизация транзакций, повышение производительности памяти и другие фичи свежего релиза для разработчика, дата-инженера и администратора. ТОП-10 новинок выпуска 3.6 Apache Kafka 3.6.0 включает 6...

25Окт
2023

Тюнинг Greenplum 7: 12 конфигураций для администратора и дата-инженера

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, настройка Greenplum, тюнинг конфигураций и параметров Greenplum, что настроить в Greenplum, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Что настроить в Greenplum 7, чтобы сделать эту MPP-СУБД еще эффективнее. Обзор наиболее популярных параметров конфигурации и рекомендации по установке их значений. Ограничения подключений и выполнения SQL-запросов: 6 параметров с перезагрузкой системы Будучи зрелой системой со множеством настроек, Greenplum предоставляет администратору и дата-инженеру широкие возможности по адаптации этой СУБД к...

03Окт
2023

Моментальные снимки распределенной файловой системы Apache Hadoop: тонкости снапшотов HDFS

Автор Анна Вичуговав категории Блог, Статьи

Apache Hadoop HDFS настройка администрирование кластера, снапшоты бэкапы Hadoop HDFS, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, HDFS Apache Hadoop для администратора кластера, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Зачем делать моментальные снимки состояния распределенной файловой системы Apache Hadoop, почему не стоит создавать снапшоты HDFS в корневом каталоге и как найти оптимальную частоту сохранения состояния больших данных. Как устроен механизм снапшотов в HDFS Чтобы повысить надежность системы, ее состояние необходимо периодически сохранять. Для баз данных и файловых систем эта...

02Окт
2023

Мультиарендность в кластере Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka мультиарендный кластер настройка конфигураций и администрирование, администрирование кластера Apache Kafka примеры курсы обучение, управление ресурсами брокера, курсы Apache Kafka для дата-инженера разработчика и администратора кластера, Apache Kafka примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое мультитенантность и как администратору Apache Kafka настроить изоляцию арендаторов в мультиарендном кластере: конфигурации, квоты и лайфхаки. Что такое мультиарендность и как реализовать эту модель для кластера Kafka Мультитенантность (мультитенантность, multitenancy) переводится с английского как множественная аренда и в контексте архитектуры ПО означает разделение одного экземпляра приложения между несколькими...

19Сен
2023

Сжатие данных в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

сжатие таблиц Greenplum, Greenplum курсы, сжатие данных Greenplum примеры курсы обучение, использование Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Как включить сжатие данных в Greenplum, какие алгоритмы сжатия поддерживает эта MPP-СУБД и можно ли установить разные параметры сжатия для отдельных столбцов и разделов больших таблиц. Примеры SQL-запросов и рекомендацию по настройке. Как Greenplum сжимает данные: примеры настроек и SQL-запросов Эффективное сжатие данных позволяет Greenplum снижать потребление памяти и повышать...

03Сен
2023

Инструменты для ETL и миграций графовой базы данных Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

миграция базы данных ETL NoSQL Neo4j примеры курсы обучение, графы Neo4j ETL, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j курсы, NoSQL Neo4j для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Как организовать миграцию схемы Neo4j и импортировать в графовую базу данные из реляционных систем. Знакомимся с инструментами проекта Neo4j Labs: Neo4j-ETL и Neo4j-Migrations. Как работает Neo4j-ETL В рамках развития своих продуктов, таких как графовая СУБД Neo4j и экосистема элементов вокруг нее (Graph Data Science, Neo4j Bloom, Neo4j Browser и пр.),...