Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

25Авг
2023

Зачем вам Neosemantics: RDF-триплеты в Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

RDF триплеты графы Neo4j Neosemantics, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j Neosemantics RDF курсы, NoSQL Neo4j Neosemantics для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Neosemantics RDF Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое триплеты, чем они отличаются от обычных графов свойств и где используются на практике. Знакомимся с RDF и возможностями графовой СУБД Neo4j работать с этой структурой описания веб-ресурсов с помощью плагина Neosemantics. Что такое триплеты и при чем здесь RDF Триплеты (triples) — это текстовый формат, используемый для хранения...

23Авг
2023

Как Apache Flink работает с файловыми системами

Автор Анна Вичуговав категории Flink, Блог

Flink HDFS S3 GCS файловая система, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие файловые системы поддерживает Apache Flink: средства взаимодействия с файлами, хранящимися локально или в объектных хранилищах HDFS, S3 и GCS. Особенности работы с файловыми системами в Apache Flink Apache Flink имеет собственную абстракцию файловой системы через класс org.apache.flink.core.fs.FileSystem. Эта абстракция обеспечивает общий набор операций и минимальные гарантии для различных типов...

22Авг
2023

Квотирование в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Квотирование клиентских запросов в Kafka, продюсеры и потребители Kafka, Kafka управление ресурсами брокера, курсы Apache Kafka для дата-инженера разработчика и администратора кластера, Apache Kafka Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое квоты в Apache Kafka и как этот механизм позволяет управлять ресурсами брокера, предупреждая DDOS-атаки от слишком активных потребителей и продюсеров. Разбираемся с типами клиентских квот, их конфигурациями и принципами работы. Квоты клиента и пользователя в Apache Kafka Чтобы управлять ресурсами брокера, кластер Kafka может применять квоты на запросы...

19Авг
2023

Отладка PySpark-приложений: журнал регистрации событий

Автор Анна Вичуговав категории Spark, Блог

отладка тестирование логирование PySpark, Spark логирование отладка примеры курсы обучение, Apache Spark для разработчиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим особенности отладки PySpark-приложений: как Python-код исполняется в JVM, какие сложности возникают у разработчика при тестировании и исправлении ошибок в программе, написанной локально и запускаемой в кластере, а также как настроить вывод событий в лог-файл. Запуск и выполнение PySpark-кода Хотя Apache Spark и имеет Python API, позволяя писать код...

18Авг
2023

Apache AirFlow 2.7: обзор августовского релиза

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow для дата-инженера и администратора кластера, администрирование Airflow , Airflow 2.7 обзор, новинки Apache Airflow, Apache Airflow DAG GUI, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

14 августа 2023 года вышел очередной релиз Apache AirFlow . Разбираем его самые главные новые возможности, улучшения и исправления ошибок: отказ от Python 3.7, задачи установки/демонтажа, встроенная поддержка спецификации OpenLineage, обновления интерфейса, упрощение управления сложными зависимостями и другие фичи Apache AirFlow 2.7. Задачи установки/демонтажа Apache AirFlow 2.7 содержит более 35...

17Авг
2023

Обогащение потока данных в Apache Flink: 3 способа добавить эталонные значения

Автор Анна Вичуговав категории Flink, Блог

Apache Flink обогащение потока данных, обучение Flink, курсы Flink, Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковое обогащение данных, зачем это нужно и как оно реализуется в Apache Flink. Проблемы и решения предварительной загрузки справочных данных в память, синхронного и асинхронного поиска в источнике по каждой записи и организация потоковой передачи событий. 3 способа загрузить эталонные (справочные) данных в Apache Flink для обогащения потока...

16Авг
2023

Гиперграфы и их реализация в HyperGraphDB

Автор Анна Вичуговав категории NoSql, Блог

гипеграфы HyperGraphDB, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j HyperGraphDB курсы, NoSQL Neo4j HyperGraphDB для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j HyperGraphDB Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Чем гиперграфы отличаются от обычных графов знаний, где они используются на практике и как эта математическая концепция поддерживается в NoSQL-СУБД HyperGraphDB. Что такое гиперграф Гиперграф — это графовая модель данных, в которой отношения (гиперребра) могут соединять любое количество заданных узлов. Можно сказать, что это обобщение графа, в котором каждым ребром...

15Авг
2023

Как проект Lightspeed от Databricks делает Apache Spark еще быстрее: асинхронное управление смещениями

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В прошлом году Databricks выпустили новый проект для ускорения потоковой передачи в Apache Spark. Сегодня рассмотрим, как именно Lightspeed сокращает задержку в операционных рабочих нагрузках Structured Streaming с помощью асинхронного управления смещением. Операционные рабочие нагрузки и что их тормозит в Apache Spark Structured Streaming Рабочие нагрузки потоковой передачи можно разделить...

13Авг
2023

Архитектура данных в TSDB-решениях для анализа временных рядов

Автор Анна Вичуговав категории NoSql, Блог

архитектура больших данных, TSDB Time Series DataBase базы данных временных рядов, NoSQL для анализа данных временных рядов, обучение Data Science примеры курсы обучение, NoSQL базы данных временных рядов анализ данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем базы данных временных рядов отличаются от реляционных и key-value хранилищ, какова модель данных для хранения метрик, значения которых меняются во времени, какие решения этой категории NoSQL-СУБД сегодня популярны на рынке и для чего они используются. Что такое база данных временных рядов и где она используется Как и следует из...

12Авг
2023

Как организовать мониторинг системных метрик Greenplum: подходы и инструменты

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum администрирование и мониторинг, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, какие системные метрики Greenplum необходимо отслеживать администратору кластера и дата-инженеру для оценки работоспособности и эффективности этой СУБД, а также с помощью каких инструментов это сделать. Мониторинг средствами Greenplum Прежде всего, стоит отметить, что контролировать Greenplum можно с помощью различных инструментов, включенных в систему или доступных в качестве надстроек....

11Авг
2023

События в экосистеме Apache Kafka: проектирование EDA-архитектуры

Автор Анна Вичуговав категории Kafka, Блог

Kafka для архитекторов и разработчиков, архитектура данных и приложений Big Data Kafka обучение примеры курсы CQRS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, проектирование архитектуры приложений Kafka, Kafka EDA примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Будучи распределенной платформой передачи событий, Apache Kafka часто используется для построения архитектуры, управляемой событиями (EDA, Event Driven Architecture). Разбираемся, что такое событие и как его спроектировать, чтобы воплотить идеи EDA с Kafka. Проектирование событий для Apache Kafka В общем смысле событие – это свершившийся факт. В EDA-архитектуре события используются различными...

10Авг
2023

Регулярные выражения в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

регулярные выражения PySpark, Spark SQL примеры курсы обучение, Apache Spark Для аналитиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Каждый дата-инженер и аналитик данных активно использует регулярные выражения для поиска значений в тексте по заданному шаблону. Сегодня рассмотрим, как это сделать с функциями regexp_replace(), rlike() и regexp_extract в Apache Spark на примере небольшого PySpark-приложения. Как работает функция regexp_replace() Регулярным выражением называется последовательность символов, задающая шаблон соответствия в тексте. Например,...

09Авг
2023

Разгружаем PostgreSQL: ETL-конвейер с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow PostreSQL, DAG Apache AirFlow PostreSQL Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня усложним пример из прошлой статьи с простым ETL-конвейером, который добавлял в базу данных интернет-магазина новые записи о клиентах, сгенерированные с помощью библиотеки Faker. Разбираем, как удалить из PostgreSQL данные об успешно доставленных заказах за прошлый месяц, предварительно сохранив их в JSON-файл с многоуровневой структурой. Пишем и запускаем DAG Apache...

08Авг
2023

От ETL до EtLT: эволюция в архитектуре конвейеров обработки данных

Автор Анна Вичуговав категории Блог, Статьи

EtLT-конвейер, архитектура конвейера данных, архитектура данных примеры курсы обучение, Data Lake DWh LakeHouse примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Как развивалась архитектура конвейеров обработки данных, что такое EtLT и почему этот подход почему постепенно заменяет классические ETL и ELT-инструменты. Краткая история развития современной дата-инженерии. От ETL к ELT и обратно: предыстория Архитектура конвейеров обработки данных претерпела несколько итераций от ETL, ELT, XX ETL (Reverse ETL, Zero-ETL) до EtLT. Если экосистема...

07Авг
2023

Многоуровневое хранилище в Apache Kafka: разбираемся с KIP-405

Автор Анна Вичуговав категории Kafka, Блог

многоуровневое хранилище Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka хранение данных, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой очередное предложение по улучшению проекта Apache Kafka, которое расширяет возможности этой распределенной платформы потоковой передачи событий, превращая ее в средство долговременного хранения данных. Надежность vs скорость: вечный компромисс в Apache Kafka Изначально Apache Kafka позиционировалась как middleware, т.е. сервисный слой для асинхронной интеграции нескольких информационных систем. Этот...

06Авг
2023

Под капотом PyFlink: как работает Python-интерфейс Apache Flink

Автор Анна Вичуговав категории Flink, Блог

PyFlink Java JVM, Apache Flink Python, обучение Flink, курсы Flink, Flink для разработчиков Python, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как и большинство Big Data фреймворков, Apache Flink имеет Python API, позволяя разработчикам высоконагруженных потоковых приложений писать код на этом популярном языке программирования. Однако, Flink-задание выполняется в JVM, поэтому сам фреймворк транслирует Python-код в Java. Разбираемся, в чем особенности этого многоступенчатого процесса. Из Python в Java: как устроен API PyFlink...

05Авг
2023

ИИ и векторные базы данных: как это работает?

Автор Анна Вичуговав категории Machine Learning, NoSql, Блог

архитектура больших данных, ИИ и векторные СУБД, метод ближайших соседей машинное обучение, knn machine learning nosql, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как устроены векторные базы данных и почему они стали так популярны с распространением ИИ. Архитектура, алгоритмы, принципы работы и примеры векторных СУБД. Что такое векторная СУБД и при чем здесь ИИ Как и следует из названия, векторная база хранит данные в виде векторов. Это понятие из математики означает специализированное представление...

04Авг
2023

Управление кластерами и коннекторами Apache Kafka в Arenadata Streaming с ADSCC

Автор Анна Вичуговав категории Kafka, Блог

курсы Аренадата, обучение Аренадата, курсы Arenadata Streaming Kafka NiFi, обучение Arenadata Streaming Kafka NiFi, обучение инженеров Big Data, курсы для разработчиков Data Flow, Apache Kafka и NiFi курсы, Apache Kafka и NiFi обучение, курсы по большим данным, Apache Kafka и NiFi совместное использование, обучение Big Data, Школа Больших Данных, учебный центр Коммерсант Москва

В январе 2023 года компания Arenadata, российский разработчик отечественных Big Data решений, выпустила средство мониторинга и управления коннекторами Apache Kafka для своего продукта Arenadata Streaming (ADS). Знакомимся с возможностями и ограничениями ADSCC. Arenadata Streaming Command Center для управления коннекторами Kafka Одной из главных фишек продуктов Arenadata, является ADCM (Arenadata Cluster...

03Авг
2023

ETL для PostgreSQL с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня реализуем простой ETL-конвейер для реляционной СУБД PostgreSQL, запустив Apache AirFlow в интерактивной среде Google Colab. Пример DAG из 3-х задач: получить количество строк в одной из таблиц БД, сгенерировать новые строки и записать их, не нарушив ограничений уникальности первичного ключа. Постановка задачи Возьмем в качестве примера базу данных для...

02Авг
2023

Изменение таблиц в Greenplum 7 без их перезаписи

Автор Анна Вичуговав категории Greenplum, Блог

изменение таблиц Greenplum 7, Greenplum курсы, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Какие команды изменения таблиц добавлены в 7-ю версию Greenplum и чем они полезны дата-инженеру. Разбираемся с новыми функциями: как добавить столбец, изменить его тип, кодировку хранения и перезаписать несколько таблиц одной командой. Добавление столбца О новых функциях работы с партиционированаными таблицами в Greenplum 7 мы уже писали. В частности, Greenplum...