Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Фев
2023

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum распределенные транзакции уровни изоляции ACID, архитектура данных, ACID в распределенных транзакциях, Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про трудности реализации ACID-требований к транзакциям в распределенных базах данных и способах их решения. Сегодня рассмотрим, как это работает в Greenplum с Arenadata DB: уровни изоляции, идентификаторы транзакций, моментальные снимки и MVCC-модель управления параллелизмом. Как GP и Arenadata DB реализуют распределенные транзакции Будучи основанной на PostgreSQL, Greenplum...

27Фев
2023

Обработка JSON-данных в Apache NiFi с JOLT-преобразованиями

Автор Анна Вичуговав категории NiFi, Блог

Apache Nifi для дата-инженера примеры курсы обучение, JOLT-процессоры Apache NiFi: JOLTTransformJSON JOLTTransformRecord JOLT NiFi processors JSON transformation, JOLT-процессоры JSON Nifi Примеры курсы обучение, обучение Apache NiFi Для инженеров даннхы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и разработчиков ETL-конвейеров на Apache NiFi рассмотрим, как преобразовать JSON-документы с помощью реализации JOLT-библиотеки в процессорах JOLTTransformJSON и JOLTTransformRecord. Что такое JOLT и как это работает Человекочитаемый формат JSON активно используется для представления пакетных и потоковых данных. Он легковеснее XML и прост для понимания,...

26Фев
2023

Как настроить Flink-приложение для потокового потребления данных из топиков Kafka

Автор Анна Вичуговав категории Flink, Kafka, Блог

Kafka Flink разработка инженерия данных примеры курсы обучение, курсы по Flink и Kafka, Flink watermark windowing timestamp, курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Почему вместо автоматической фиксации топиков Kafka приложению-потребителю Apache Flink лучше использовать контрольные точки, как создаются и обрабатываются водяные знаки и при чем тут оконные операторы потоковой обработки данных. Смещение в топиках Kafka для потоковых приложений Apache Flink Благодаря мощному API пакетной и потоковой обработки, Apache Flink часто используется для разработки...

25Фев
2023

Колоночные и строковые: виды хранения данных в СУБД

Автор Анна Вичуговав категории Greenplum, HBase, Блог

колоночные и строковые базы данных с примерами, архитектура данных примеры курсы обучение, хранение больших данных, реляционные и NoSQL базы данных примеры курсы обучение отличие, инженерия данных, архитектура данных, Школа Больших Данных Учебный Центр Коммерсант

Как данные хранятся на диске при разной ориентации хранилища в СУБД: чем отличаются колоночные базы от строковых с точки зрения практического использования в дата-инженерии. Сравнительная таблица с примерами и выводами. Как данные хранятся на диске и при чем здесь ориентация СУБД Способы хранения данных в СУБД можно разделить на 2...

24Фев
2023

FastAPI versus BentoML: что лучше для MLOps и почему

Автор Анна Вичуговав категории Machine Learning, Блог

FastAPI BentoML MLOps Machine Learning примеры курсы обучение, обучение MLOps, BentoML MLops инженер, BentoML MLOps, MLOps обучение, машинное обучение Python примеры курсы, Школа Больших Данных Учебный Центр Коммерсант

Что общего у FastAPI с BentoML, чем они отличаются и почему только один из них является полноценным MLOps-инструментом. Смотрим на примере операций разработки и развертывания API сервисов машинного обучения. Что общего у FastAPI с BentoML и при чем здесь MLOps С точки зрения промышленной эксплуатации, в проектах машинного обучения следует...

23Фев
2023

Вперед в прошлое: backfill для DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

backfill DAG AirFlow инженерия данных, курсы обучение Apache AirFlow дата-инженер, курсы Apache AirFlow, управление задачами Apache AirFlow, инженерия данных примеры курсы обучение Apache AirFlow , DAG Task management Apache AirFlow, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое backfill в Apache AirFlow и зачем дата-инженеру запускать эту команду CLI-интерфейса при управлении DAG. Разбираемся с параметрами, возможностями и исключениями. Что такое backfill в Apache AirFlow и чем это полезно при управлении DAG Иногда при управлении конвейерами обработки данных в Apache AirFlow дата-инженеру необходимо вернуться в прошлое, чтобы...

22Фев
2023

Ускоряем Apache Spark с помощью RAPIDS на GPU

Автор Анна Вичуговав категории Spark, Блог

Rapids Accelerator для Apache Spark NVIDIA примеры, оптимизация SQL-запросов Apache Spark движки примеры курсы обучение, курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как использовать преимущества графических процессоров для Spark-приложений аналитики больших данных и машинного обучения с помощью библиотек RAPIDS. Знакомимся с ускорителем Spark RAPIDS и его возможностями сделать популярный вычислительный движок еще быстрее. Что такое RAPIDS Accelerator для Apache Spark и как он работает Системы Machine Learning, особенно проекты глубокого обучения, уже...

21Фев
2023

Доступность vs надежность: выборы лидера в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka выборы лидера, Apache Kafka репликация администрирование кластера примеры курсы обучение, отказоустойчивость и надежность Kafka, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как внутренние механизмы Apache Kafka обеспечивают отказоустойчивость это потоковой платформы передачи событий, а также разберем, почему до сих пор приходится выбирать между доступностью и надежностью. Выборы нового лидера при сбое прежнего и ожидание подтверждений об успешной репликации. Поиск компромисса между надежностью и доступностью в Apache Kafka Для обеспечения...

20Фев
2023

Apache NiFi 1.20 от 9 февраля 2023 года: обзор новинок

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi процессоры администрирование дата-инженерия примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

9 февраля 2023 года опубликован очередной выпуск Apache NiFi. Разбираемся, что нового в релизе 1.20, какие появились процессоры для потокового приема и обработки данных, как устранена уязвимость CVE-2023-22832 и зачем нужны очередные изменения в функциях внутренних языков NiFi. Исправленные ошибки в Apache NiFi 1.20 В свежем выпуске Apache NiFi 1.20...

19Фев
2023

Безопасный обмен большими данными с открытым протоколом Delta Sharing

Автор Анна Вичуговав категории Spark, Блог

Delta Lake Sharing Databricks, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, Школа Больших Данных Учебный Центр Коммерсант

Что такое Delta Sharing, зачем нужен и как устроен этот открытый стандарт, а также как его использовать для централизованного управления доступом к данным в архитектуре Data Mesh. Что такое Delta Sharing и при чем здесь Data Lake Чтобы упростить обмен большими данными между разными компаниями в режиме реального времени и...

18Фев
2023

Тонкости тестирования приложений Apache Flink SQL

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка и тестирование SQL примеры курсы обучение , Flink SQL примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка и тестирование приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как протестировать работу приложения Apache Flink, используя SQL-клиентов, Table API, тестовые наборы операторов и режим локального мини-кластера. Разбираем особенности ручного и автоматизированного тестирования Flink SQL на уровне отдельных функций, модулей и их интеграционного взаимодействия. Модульное и интеграционное тестирование приложений Apache Flink SQL Тестирование является неотъемлемой частью любого процесса разработки ПО,...

17Фев
2023

Безопасность данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase администратор списки доступа привилегии права примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня в рамках обучения администраторов SQL-on-Hadoop рассмотрим, как защитить данные в кластере Apache HBase от несанкционированного доступа. Аутентификация и авторизация пользователей, операторы управления доступом к таблицам, метки видимости и шифрование данных. Механизмы защиты данных в Apache HBase Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает...

16Фев
2023

MLOps с Graphene: зачем и как использовать GraphQL для проектов Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

GraphQL Python Flask ML MLOps Data Science Machine Learning, аналитика больших данных примеры курсы обучение, Data Science обучение курс, обучение большим данным, MLOps-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы упоминали GraphQL как мощный и гибкий язык запросов к данным, хранящимся в графовых СУБД. Сегодня рассмотрим, чем эта технология может быть полезна в проектах Machine Learning, какие сложности с ней связаны и как их решить с помощью MLOps. GraphQL для ML: возможности и примеры Не будучи в чистом...

15Фев
2023

Еще больше больших данных: масштабирование кластера Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

горизонтальное масштабирование кластера Greenplum, администрирование кластера Greenplum, обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Какие подходы позволяют увеличить емкость СУБД, чтобы повысить объем хранящихся в ней данных и ускорить вычисления. Разбираем тонкости масштабирования распределенной базы данных с массово-параллельной обработкой Greenplum: действия администратора по добавлению новых узлов в кластер. Как увеличить емкость базы данных: 4 подхода к масштабированию Чтобы увеличить емкость СУБД, т.е. объем хранимых...

14Фев
2023

Зачем вам TigerGraph: обзор графовой MPP-СУБД

Автор Анна Вичуговав категории NoSql, Блог

TigerGraph примеры, графовые базы данных и языки запросов GQL TigerGraph, графовая аналитика больших данных примеры курсы обучение, Data Science TigerGraph обучение курс, анализ графов TigerGraph, TigerGraph примеры курсы обучение, обучение большим данным, Data Analyst TigerGraph курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про языки запросов к графовым базам данных, сегодня познакомимся с GSQL, который поддерживается в MPP-СУБД TigerGraph. Как работает эта распределенная NoSQL-база данных и каким образом реализует ACID-требования к транзакциям в операциях с графами. Архитектура и принципы работы графовой MPP-СУБД TigerGraph — это распределенное графоориентированное хранилище данных с массивно-параллельной...

13Фев
2023

Тонкости управления задачами в Apache AirFlow: лайфхаки для дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

курсы Apache AirFlow , управление задачами Apache AirFlow, инженерия данных примеры курсы обучение Apache AirFlow , DAG TAsk management Apache AirFlow, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как установить и отследить в Apache AirFlow зависимости экземпляров задач друг от друга, узнать о запуске конкретной задачи в DAG, использовать обратные вызовы и правила триггеров, а также шаблоны и макросы Jinja. Полезные примеры управления ETL-конвейерами для дата-инженера в GUI и CLI-интерфейсах. Как узнать время запуска последнего экземпляра задачи? Будучи...

12Фев
2023

Ускоряем SQL-запросы в Apache Spark с проектом Gluten

Автор Анна Вичуговав категории Spark, Блог

Gluten Spark SQL, оптимизация SQL-запросов Apache Spark движки примеры курсы обучение, курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как повысить скорость выполнение SQL-запросов в Spark-приложениях, используя Gluten – новый вычислительный движок, объединяющий несколько векторизированных механизмов выполнения с поддержкой аппаратных ускорителей. Что такое Gluten и как он появился в Apache Spark Когда данных много, их обработка может длиться долго. Чтобы ускорить вычисления с Big Data, разработчики распределенных приложений и...

11Фев
2023

Как KRaft влияет на скорость работы и хранение данных в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

KRaft Zookeeper Kafka , Apache Kafka KRaft vs Zookeeper обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали об изменении статуса и улучшении протокола KRaft в Apache Kafka 3.3. Сегодня погрузимся в эту тему чуть глубже и рассмотрим, как отказ от Zookeeper влияет на количество разделов и возможность одного и того же кластера Kafka с одним набором топиков обслуживать разные типы приложений в различных бизнес-сценариях....

10Фев
2023

Обработка ошибок в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

процессоры Apache NiFi разработка обработка ошибок исключения, курсы Apache NiFi администратор дата-инженер, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Сегодня посмотрим на Apache NiFi с точки зрения разработчика Data Flow и разберем ключевые нюансы обработки ошибок, генерации исключений и лучшие практики работы с ними для практических задач дата-инженерии. Исключения процессоров Apache NiFi При том, что Apache NiFi имеет множество готовых процессоров для подключения ко внешним источникам или приемникам данных,...

09Фев
2023

Устраняем дубли в потоковых данных с Apache Flink SQL

Автор Анна Вичуговав категории Flink, Блог

дедупликация Apache Flink SQL примеры курсы обучение, потоковая обработка данных Apache Flink SQL, Apache Flink SQL для дата-инженеров примеры курсы обучение, как удалить дубли в потоковых данных Apache Flink SQL, курсы Apache Flink для разработчиков, обучение большим данным, инженерия Big Data Apache Flink SQL, Школа Больших Данных Учебный Центр Коммерсант

Чем опасны дубли данных при их потоковой обработке и как реализовать дедупликацию в Apache Flink SQL. Смотрим на практическом примере для обучения дата-инженеров и разработчиков распределенных приложений. Потоковая дедупликация данных в Apache Flink SQL Apache Flink можно назвать уникальный фреймворком для разработки распределенных приложений в области Big Data, который унифицирует...