Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

15Дек
2023

Миграция данных в Greenplum: риски и возможности

Автор Анна Вичуговав категории Greenplum, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, Greenplum администрирование миграция данных, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Как выполнить миграцию данных: лучшие практики и рекомендации на примере Greenplum. Особенности и принципы работы утилит gpbackup, gprestore и gpcopy. Миграция данных из Greenplum на 7 с утилитами gpbackup и gprestore Независимо от причины миграции данных из прикладной системы или корпоративного хранилища данных на новую технологию, эта процедура всегда остается...

14Дек
2023

Проектирование хранилища данных с методологией Data Vault в архитектуре Lakehouse

Автор Анна Вичуговав категории NoSql, Блог

Data Vault Lakehouse архитектура данных проектирование, курсы архитектор DWH, обучение архитектор DWH, Data Vault Lakehouse примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Преимущества методологии Data Vault для проектирования архитектуры данных Lakehouse, а также лучшие практики ее использования с максимальной эффективностью для корпоративного хранилища. Принципы методологии Data Vault и их применение к проектированию DWH Существует множество различных методологий проектирования данных, которые можно использовать при разработке аналитической системы, например, модели звезды и снежинки, подходы...

13Дек
2023

Что обеспечивает высокую доступность приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

архитектура и принципы работы Flink, отказоустойчивость Flink, высокая доступность Flinkm Apache Flink примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как работает Flink-приложение, из каких компонентов состоит распределенный кластер и как сделать его отказоустойчивым. Архитектура и принципы работы высокой доступности Apache Flink. Архитектура Flink-приложения: ключевые компоненты и связь между ними Перед тем, как погружаться в средства обеспечения высокой доступности Flink-приложения, вспомним базовые принципы его работы. Сам по себе Apache Flink...

12Дек
2023

Магический байт в сообщениях и реестр схем Apache Kafka: проблемы и решения

Автор Анна Вичуговав категории Kafka, Блог

Kafka реестр схем, Apache Kafka магический байт, Kafka для разработчиков и дата-инженеров, администратор кластера Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое неизвестный магический байт, почему возникает эта ошибка и как предупредить такое исключение сериализации при работе с Kafka Streams, клиентами Apache Kafka и реестром схем. Что такое магический байт в сообщении Чтобы корректно обработать на стороне потребителя сообщение, считанное из Kafka, необходимо знать его формат, поскольку данные, публикуемые приложением-продюсером...

11Дек
2023

Еще 3 уязвимости Apache NiFi в 2023 году

Автор Анна Вичуговав категории NiFi, Блог

уязвимости Apache NiFi, использование Apache NiFi, Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, безопасность Apache NiFi, Школа больших Данных Учебный центр Коммерсант

Ранее мы уже писали об уязвимостях Apache NiFi, выявленных и устраненных в 1-ой половине 2023 года. Сегодня рассмотрим еще 3 ошибки, которые были обнаружены и исправлены в последние 6 месяцев уже уходящего года. Последние 3 уязвимости Apache NiFi во второй половине 2023 года Помимо ранее рассмотренных уязвимостей, в 2023 году...

10Дек
2023

Барьерный режим выполнения в Apache Spark и при чем здесь глубокое обучение

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Spark MLмашинное обучение барьерный режим выполнения, разработка Spark-приложений примеры курсы обучение

Что такое барьерный режим выполнения в Apache Spark, чем он отличается от вычислительной модели MapReduce, как связан с глубоким машинным обучением и где используется на практике. Что такое барьерный режим выполнения в Apache Spark Способ выполнения заданий Spark определяется режимом выполнения приложения, заданным на уровне фреймворка. На платформе. Именно от...

09Дек
2023

Параллельное выполнение задач в DAG Apache AirFlow: практический пример

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, Apache Airflow для дата-инженера и администратора кластера, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Сегодня на практическом примере посмотрим, как запускать в DAG Apache AirFlow параллельное исполнение нескольких задач, применим пару лучших практик реализации ETL-конвейера для работы с PostgreSQL, а также разберем неоднозначности программного добавления соединений с внешними системами. Постановка задачи Предположим, необходимо получить аналитику по продажам товаров интернет-магазина, выгрузив данные из PostgreSQL в...

08Дек
2023

Возможности Apache Flink для разработчика: 3 API фреймворка

Автор Анна Вичуговав категории Flink, Блог

Какие возможности Apache Flink предоставляет разработчику и как их использовать: краткий обзор существующих API и потоковых примитивов. Потоковые примитивы и низкоуровневый API Будучи популярным фреймворком для stateful-вычислений над неограниченными и ограниченными потоками данных, Apache Flink предоставляет несколько API на разных уровнях абстракции и предлагает специальные библиотеки для различных сценариев. На...

07Дек
2023

Как повысить надежность кластера Apache Kafka: сбои публикации и стратегии их устранения

Автор Анна Вичуговав категории Kafka, Блог

Kafka надежность отказоустойчивость администрирование, Apache Kafka безопасность, Kafka для разработчиков и дата-инженеров, администратор кластера Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Какие меры принять администратору кластера Apache Kafka, чтобы повысить надежность потоковой экосистемы, использующей эту распределенную платформу как средство интеграции различных приложений. Сбои в потоковой экосистеме и способы их устранения Хотя Apache Kafka считается высоконадежной системой благодаря множеству встроенных механизмов отказоустойчивости, таким как репликация и перевыборы лидера. Впрочем, это не исключает...

03Дек
2023

Под капотом задания Apache Flink: 3 этапа преобразования

Автор Анна Вичуговав категории Flink, Блог

Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как планируются и исполняются задания Apache Flink: от пользовательского Java-кода до физического исполнения, а также отслеживание статуса задания в JobManager. Подробности преобразований с примерами кода. 3 этапа преобразования задания Apache Flink Задание Apache Flink проходит несколько этапов перед своим физическим выполнением: сперва пользовательский код преобразуется в потоковый граф (Stream Graph);...

02Дек
2023

Все успешно: файл _SUCCESS в рабочих процессах Apache Spark

Автор Анна Вичуговав категории Spark, Блог

разработка Spark-приложений примеры курсы обучение

Когда и зачем Spark-приложение создает файл _SUCCESS, почему в нем нет данных, как его использовать, можно ли обойтись без него и как это сделать. Пример запуска PySpark-приложения в Google Colab. Когда и зачем Spark-приложение создает файл _SUCCESS В Apache Spark при выполнении операций записи с использованием таких методов, как saveAsTextFile(),...

01Дек
2023

Apache Kafka vs Streams и Pub/Sub в Redis

Автор Анна Вичуговав категории Kafka, NoSql, Блог

Kafka vs Redis Streams and Pub/Sub, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как key-value СУБД Redis может работать с потоковыми данными и чем Pub/Sub и Streams отличаются от Apache Kafka. Сравнение и рекомендации по использованию. Потоковое сохранение данных Redis Будучи очень быстрым key-value хранилищем, NoSQL-СУБД Redis часто используется в качестве слоя кэширования для разгрузки основной базы данных. В отличие от многих других...

30Ноя
2023

SQL-запросы к Clickhouse в онлайн-песочнице: практический пример

Автор Анна Вичуговав категории ClickHouse, NoSql, Блог

Big Data, Большие данные, SQL, обработка данных, ClickHouse

Насколько быстро ClickHouse выполняет SQL-запросы: тестирование СУБД в открытой онлайн-песочнице. Примеры запросов и время их выполнения. Работа с онлайн-песочницей Clickhouse: выполнение SQL-запросов Будучи реляционной аналитической СУБД, ClickHouse позволяет обрабатывать гигабайты данных в реальном времени. Архитектурные особенности, благодаря которым реализуется такая скорость, мы недавно разбирали здесь. Чтобы оценить это на практике,...

26Ноя
2023

Greenplum vs Clickhouse: сравнение аналитических СУБД для Big Data

Автор Анна Вичуговав категории ClickHouse, Greenplum, NoSql, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, ClickHouse, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Сходства и различия популярных реляционных аналитических СУБД с открытым исходным кодом: что общего у Greenplum с ClickHouse, чем они отличаются, что и когда выбирать. Greenplum и Clickhouse: обзор возможностей для аналитики больших данных Обе СУБД являются реляционными и относятся к классу OLAP-систем, т.е. ориентированы на аналитические варианты использования, т.е. чтение...

25Ноя
2023

Долгожданный релиз Apache NiFi 2.0: что нового?

Автор Анна Вичуговав категории NiFi, Блог

обновления и возможности Apache NiFi, Apache NiFi 2.0, Apache NiFi проектирование потока данных, Apache NiFi для дата-инженеров примеры курсы обучение, обучение инженеров данных Apache NiFi, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали об анонсированных новинках Apache NiFi 2.0. Наконец, 25 ноября 2023 года этот долгожданный мажорный релиз опубликован. Знакомимся с главными новостями версии 2.0, в которой более 900 обновлений, включая новые функции, улучшения и исправления ошибок. ТОП-7 новинок в Apache NiFi 2.0 Прежде всего, важной новинкой NiFi 2.0 является...

24Ноя
2023

Кластерный анализ графов с медоидами: алгоритм k-medoids

Автор Анна Вичуговав категории Machine Learning, Neo4j, Блог

анализ графов, Data Science, Graph Data Science, k-medoids, обучение аналитиков данных, Школа Больших Данных УЦ Коммерсант

Что такое алгоритм k-medoids, чем он отличается от k-means и как этот метод кластеризации применяется для анализа графов: принципы и инструменты. Что такое медоид и как устроен алгоритм кластеризации k-medoids Кластеризация — это метод машинного обучения для поиска кластеров или сообществ в наборе данных. Цель в том, чтобы найти кластеры,...

23Ноя
2023

Оптимизация использования RocksDB и параллелизма в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink приложения, Flink RocksDB, Flink параллелизм заданий, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Почему хранить состояния Flink-приложений лучше на локальных SSD-диски, а не на твердотельных накопителях с удаленной файловой системой NFS или HDFS, зачем отключать блочный кэш RocksDB и как настроить параллелизм заданий. Проблемы сохранения состояния в RocksDB и способы их решения Как мы уже упоминали здесь, key-value хранилище RocksDB является самым популярным...

22Ноя
2023

Как язык разработки влияет на стратегию партиционирования в Apache Kafka: тонкости хэширования

Автор Анна Вичуговав категории Kafka, Блог

разделение хэш-функция ключа Kafka, стратегии партиционирования хэширование Kafka, Kafka-Python примеры, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление и публикация сообщений курсы примеры обучение, потоковая обработка данных с Kafka примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как работает распределение сообщений по разделам топика Kafka с явно заданным ключом партиционирования и на что влияет язык разработки приложения-продюсера при использовании этой стратегии. 3 стратегии распределения сообщений по разделам в Apache Kafka В Apache Kafka единицей параллелизма выступает раздел топика. Используя несколько разделов, можно распределять нагрузку на брокеров в...

21Ноя
2023

Параметры настройки для масштабирования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

масштабирование Apache AirFlow, падение производительности AirFlow, почему падает производительность Apache Airflow и что делать, Apache Airflow для дата-инженера и администратора кластера, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Ранее мы писали про проблемы повышения производительности Apache AirFlow и каковы их причины. В продолжение этой темы сегодня рассмотрим, как настроить этот ETL-оркестратор, чтобы избежать подобных ситуаций и масштабировать кластер в соответствии с нагрузкой. Настройка AirFlow на уровне среды Как мы уже отмечали, Apache AirFlow отлично масштабируется, обеспечивая высокую производительность...

20Ноя
2023

Кибербезопасность в MLOps: угрозы и лучшие практики

Автор Анна Вичуговав категории Machine Learning, Блог

информационная безопасность и защита данных и систем машинного обучения, MLOps примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему безопасность ML-систем становится все более важным вопросом и как ее обеспечить: MLOps-подходы, практики и технологии защиты данных, моделей машинного обучения, а также вычислительных и инфраструктурных конвейеров. Защита данных для машинного обучения В связи с активным внедрением система машинного обучения в производственное использование, вопрос безопасности становится все более актуальным. ML-системы...