Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

22Окт
2022

Разделение и распределение данных в Greenplum: лучшие практики

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали тонкости проектирования схем данных в Greenplum. Продолжая разбирать важные для обучения дата-инженеров и архитекторов DWH темы, сегодня поговорим о том, как разделение и распределение данных влияют на скорость выполнения SQL-запросов в этой MPP-СУБД. Распределение данных Напомним, MPP-СУБД Greenplum широко используется в качестве OLAP-системы и корпоративного хранилища данных....

21Окт
2022

Масштабируемая шина событий на Apache Kafka для анализа пользовательского поведения в Whatnot

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka примеры курсы обучение, потоковая обработка событий Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как дата-инженеры маркетплейса Whatnot масштабировали потоковую обработку данных с помощью Apache Kafka, изменив свои ETL-процессы и реализовав на этой распределенной платформе шину событий для анализа пользовательского поведения c ksqlDB и Rockset. Постановка задачи: события пользовательского поведения в Whatnot Whatnot – это маркетплейс, пользователи которого могут покупать и продавать...

20Окт
2022

Строго однократная доставка сообщений в потоковой обработке данных с Apache Flink и Kafka

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink exactly once примеры обучение оконные функции, Flink Kafka примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Как Apache Flink реализует строго однократную доставку событий в потовой обработке данных с помощью контрольных точек для записи данных в реляционную базу, используя функцию TwoPhasedCommitSink(), основанную на механизме согласованных snapshot’ов 35-летней давности и Kafka Transaction API. Трудности строго однократной доставки в потоковой обработке данных Распределенная обработка потоков с отслеживанием состояния...

19Окт
2022

Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive vs Iceberg, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Iceberg dalta Lake, Школа Больших Данных Учебный центр Коммерсант

Какова роль каталогов метаданных в корпоративных Data Lake, почему Hive Metastore не отвечает всем потребностям современной дата-инженерии в гибком управлении данными и в чем преимущества формата открытых таблиц Iceberg над таблицами Hive и Delta Lake. Каталоги метаданных в Data Lake Для организации данных в корпоративных озерах используются каталоги метаданных, которые...

17Окт
2022

Как ускорить потоковые приложения: 5 способов оптимизации Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Structured Streaming примеры курсы обучение, курсы Apache Spark SQL для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Разработка высоконагруженных систем потоковой аналитики больших данных включает не только написание кода, но и его оптимизацию. Поэтому разработчикам приложений Apache Spark Structured Streaming и дата-инженерам полезно знать, как можно повысить эффективность своих Big Data систем. В этой статье мы рассмотрим конфигурации и приемы, которые могут ускорить пакетные и потоковые вычисления....

15Окт
2022

Apache NiFi 1.18.0: новинки октябрьского релиза 2022

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi администрирование дата-инженерия новый релиз примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

10 октября 2022 года вышел очередной релиз Apache NiFi. Разбираемся с его ключевыми новинками: провайдеры параметров, подключаемый реестр клиентов, новые процессоры и улучшения протокола MQTT. Самые главные фичи свежего выпуска для дата-инженера и администратора кластера Apache NiFi. ТОП-7 новых фич свежего релиза Будучи популярным инструментов современной дата-инженерии, Apache NiFi активно...

14Окт
2022

Улучшенная обработка пакетов с Apache Kafka и Logstash в Trendyol

Автор Анна Вичуговав категории Kafka, Блог

Logstash Apache Kafka примеры курсы обучение, пакетная обработка событий Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Как турецкая e-commerce компания Trendyol повысила эффективность пакетных вычислений, используя распределенную платформу потоковой обработки событий Apache Kafka вместе с серверной утилитой сбора и фильтрации данных из разных источников Logstash. Пакетная обработка данных и конвейер на Logstash Хотя сегодня все больше организаций переходят на потоковую обработку событий в реальном времени, пакетная...

13Окт
2022

DWH по Кимбаллу и Data Mesh

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH проектирование архитектуры данных Data Mesh, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Все архитекторы DWH и многие дата-инженеры знакомы с идеями Ральфа Кимбалла, согласно которым хранилище данных — это сочетание множества различных витрин данных, облегчающих отчетность и анализ важных бизнес-показателей. Читайте далее, как реализовать этот подход при проектировании корпоративного хранилища данных и при чем здесь Data Mesh. КХД по Кимбаллу: доменные витрины...

12Окт
2022

3 аспекта проектирования схем данных в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

В этой статье продолжим говорить про лучшие практики работы с Greenplum и рассмотрим тонкости проектирования схем данных в этой MPP-СУБД, которая часто применяется для хранения и аналитики больших данных. Почему надо задавать одинаковые типы данных для столбцов, используемых в SQL-запросах c оператором JOIN, чем хранилище кучи отличается от Append Only,...

11Окт
2022

MLOps для Apache Flink с MLeap

Автор Анна Вичуговав категории Flink, Блог

MLOps машинное обучение примеры курсы, Machine Learning Flink Spark примеры курсы обучение, обучение Apache Flink Spark для дата-инженеров и NL-разработчиков, обучение Data Science, Шкоал Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как реализовать MLOps-идеи при разработке приложений Apache Flink с использованием MLeap, библиотеки сериализации для моделей машинного обучения. Зачем инженеры GetInData разрабатывали для этого свой коннектор и как его использовать на практике. Что такое MLeap и при чем здесь MLOps Будучи популярным вычислительным движком для потоковой аналитики больших данных,...

10Окт
2022

Криптография на PySpark: PyCryptodome для Apache Spark

Автор Анна Вичуговав категории Spark, Блог

безопасность и защита данных в Big Data, шифрование Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про использование криптографии в Apache Spark. Сегодня в рамках обучения дата-инженеров и разработчиков распределенных приложений рассмотрим, как шифровать столбцы датафрейма в PySpark и расшифровывать их с использованием алгоритма шифрования AES. Основы кибербезопасности: ликбез по шифрованию данных Шифрование данных преобразует данные в другую форму или код, чтобы их...

09Окт
2022

Регулярные выражения в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Каждый разработчик и дата-аналитик с закрытыми глазами напишет SQL-запрос с регулярными выражениями для поиска данных по шаблону в реляционной базе. А вот в NoSQL-СУБД такая простая задача реализуется довольно сложно. Как написать регулярное выражение в Apache HBase и запустить его на исполнение в CLI-интерфейсе shell-оболочки этого хранилища данных. Что такое...

06Окт
2022

ETL-конвейер передачи данных из MySQL в Hive с Apache NiFi

Автор Анна Вичуговав категории Hive, NiFi, Блог

ETL NiFi Hive примеры курсы обучение, NiFi для инженеров данных, обучение дата-инженеров, курсы NiFi Hive, обучение большим данным, NoSQL Hadoop NiFi курсы примеры обучение, SQL-on-Hadoop обучение курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем, как автоматизировать наполнение озера данных на HDFS через загрузку таблиц из реляционной базы MySQL в Hive с помощью Apache NiFi. Какие процессоры NiFi следует использовать и зачем предварительно разделять таблицу Apache Hive. Пример ETL-конвейера на процессорах Apache NiFi Apache NiFi часто используется дата-инженерами в качестве средства автоматизации и...

05Окт
2022

Мониторинг системных метрик Apache Kafka с Iris

Автор Анна Вичуговав категории Kafka, Блог

мониторинг системных метрик Apache Kafka примеры инструментов, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, мониторинг за кластером Kafka, Apache Kafka для администраторов и дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для администраторов кластера Apache Kafka и разработчиков распределенных приложений еще больше полезных обучающих материалов, сегодня рассмотрим новый инструмент мониторинга системных метрик этой платформы потоковой передачи событий. Что такое проект Iris и чем он отличается от других популярных средств мониторинга состояния Apache Kafka, о которых мы...

04Окт
2022

От Apache Hive к Iceberg и Spark: модернизация озера данных в Airbnb

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение SQL-on-Hadoop, Apache Hive примеры курсы обучение, Apache Spark примеры курсы обучение, обучение дата-инженеров, озеро данных Hive HDFS Hadoop S3 Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Рассмотрим, как дата-инженеры Airbnb делятся своим опытом перевода корпоративного Data Lake на Apache HDFS в облачное объектное хранилище AWS S3. Почему пришлось переводить аналитические нагрузки с Apache Hive на Iceberg и Spark, и какие результаты это принесло. Предыстория: Data Lake на HDFS и Apache Hive Будучи крупнейшей онлайн-площадкой для размещения...

02Окт
2022

Apache Hadoop 3.3.4: краткий обзор главных обновлений

Автор Анна Вичуговав категории Блог, Статьи

Apache Hadoop 3.3.4, обновления Hadoop 2022, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, YARN в кластере Apache Hadoop, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

8 августа 2022 года вышел очередной релиз главной технологии стека Big Data – Apache Hadoop 3.3.4. Разбираемся с ключевыми фичами этого выпуска и исправлениями ошибок, которые особенно важны для администратора кластера и дата-инженера. ТОП-10 обновлений Apache Hadoop 3.3.4 Apache Hadoop 3.3.4 включает в себя ряд значительных улучшений по сравнению с...

01Окт
2022

Оптимизация аналитических рабочих нагрузок в транзакционных системах с Data Mesh

Автор Анна Вичуговав категории Блог, Цифровая трансформация

аналитика больших данных примеры курсы обучение, архитектура данных, Data Mesh примеры курсы обучение, курсы ИТ-архитекторов, обучение архитекторов Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше полезных материалов, сегодня рассмотрим, как модернизировать аналитические рабочие нагрузки в транзакционных системах с помощью гибридной архитектуры Data Mesh. А также поговорим о том, как реализовать этот подход с организационной и технической точек зрения. Аналитика и транзакции: versus или вместе?...

30Сен
2022

Как ускорить чтение из JDBC-источников для Apache Spark: 3 метода

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark JDBC для разработчиков, Spark JDBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем тему, важную для обучения дата-инженеров и разработчиков распределенных Spark-приложений. Почему чтение данных из реляционных баз в Apache Spark может быть медленным и как его ускорить, изменив SQL-запрос или структуру таблицы. JDBC-источники данных для Apache Spark Apache Spark является средством обработки, а не хранения больших данных. Поэтому, чтобы использовать...

29Сен
2022

Потоковый CEP и CDC с Apache Flink SQL: JDBC-коннектор от GetIndata

Автор Анна Вичуговав категории Flink, Блог

CDC CEP Flink SQL примеры курсы обучение, потоковая обработка цепочек событий в Flink приложениях, библиотека CEP Apache Flink, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про поиск сложных событий при их потоковой обработке средствами Apache Flink. Продолжая эту важную для обучения дата-инженеров тему, сегодня рассмотрим, как CDC-коннектор от GetIndata упрощает запуск распознавание шаблонов на потоках данных из многих источников. Проблемы захвата измененных данных из реляционной базы с помощью JDBC-драйвера и способы их...

26Сен
2022

Знакомство с aiokafka: асинхронный Python-клиент для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы по Apache Kafka, тренинг Kafka, Apache Kafka курсы для разработчиков больших данных в Москве, обучение разработчиков Big Data Kafka Python, Apache Kafka и Python, примеры Kafka Python, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали о Python-клиентах Apache Kafka, которые позволяют разрабатывать приложения потоковой передачи события, используя популярный Python вместо сложных языков Java и Scala. Сегодня познакомимся с еще одной Python-библиотекой, которая представляет асинхронный клиент для Kafka. Что такое aiokafka и чем это отличается от kafka-python: краткий обзор для обучения инженеров данных...