Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

19Авг
2023

Отладка PySpark-приложений: журнал регистрации событий

Автор Анна Вичуговав категории Spark, Блог

отладка тестирование логирование PySpark, Spark логирование отладка примеры курсы обучение, Apache Spark для разработчиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим особенности отладки PySpark-приложений: как Python-код исполняется в JVM, какие сложности возникают у разработчика при тестировании и исправлении ошибок в программе, написанной локально и запускаемой в кластере, а также как настроить вывод событий в лог-файл. Запуск и выполнение PySpark-кода Хотя Apache Spark и имеет Python API, позволяя писать код...

18Авг
2023

Apache AirFlow 2.7: обзор августовского релиза

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow для дата-инженера и администратора кластера, администрирование Airflow , Airflow 2.7 обзор, новинки Apache Airflow, Apache Airflow DAG GUI, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

14 августа 2023 года вышел очередной релиз Apache AirFlow . Разбираем его самые главные новые возможности, улучшения и исправления ошибок: отказ от Python 3.7, задачи установки/демонтажа, встроенная поддержка спецификации OpenLineage, обновления интерфейса, упрощение управления сложными зависимостями и другие фичи Apache AirFlow 2.7. Задачи установки/демонтажа Apache AirFlow 2.7 содержит более 35...

17Авг
2023

Обогащение потока данных в Apache Flink: 3 способа добавить эталонные значения

Автор Анна Вичуговав категории Flink, Блог

Apache Flink обогащение потока данных, обучение Flink, курсы Flink, Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковое обогащение данных, зачем это нужно и как оно реализуется в Apache Flink. Проблемы и решения предварительной загрузки справочных данных в память, синхронного и асинхронного поиска в источнике по каждой записи и организация потоковой передачи событий. 3 способа загрузить эталонные (справочные) данных в Apache Flink для обогащения потока...

16Авг
2023

Гиперграфы и их реализация в HyperGraphDB

Автор Анна Вичуговав категории NoSql, Блог

гипеграфы HyperGraphDB, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j HyperGraphDB курсы, NoSQL Neo4j HyperGraphDB для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j HyperGraphDB Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Чем гиперграфы отличаются от обычных графов знаний, где они используются на практике и как эта математическая концепция поддерживается в NoSQL-СУБД HyperGraphDB. Что такое гиперграф Гиперграф — это графовая модель данных, в которой отношения (гиперребра) могут соединять любое количество заданных узлов. Можно сказать, что это обобщение графа, в котором каждым ребром...

15Авг
2023

Стандартизация MLOps с CRISP-ML

Автор Анна Вичуговав категории Machine Learning, Блог

CRISP-ML(Q) MLOps, курсы по цифровизации, обучение цифровизации, машинное обучение и аналитика больших данных для руководителей курсы, курс по машинному обучению для менеджеров, автоматизация машинного обучения, Machine Learning Operations CRISP-ML(Q), MLOps методология инструменты примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что представляет собой межотраслевой стандартный процесс машинного обучения CRISP-ML(Q), из каких этапов и задач он состоит, а также как согласуется с концепцией MLOps. Что такое CRISP-ML(Q) и при чем здесь MLOps Стандартизация подходов и процессов позволяет унифицировать и масштабировать лучшие практики управления исследованиями и разработкой, в т.ч. распространяя их на...

15Авг
2023

Как проект Lightspeed от Databricks делает Apache Spark еще быстрее: асинхронное управление смещениями

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В прошлом году Databricks выпустили новый проект для ускорения потоковой передачи в Apache Spark. Сегодня рассмотрим, как именно Lightspeed сокращает задержку в операционных рабочих нагрузках Structured Streaming с помощью асинхронного управления смещением. Операционные рабочие нагрузки и что их тормозит в Apache Spark Structured Streaming Рабочие нагрузки потоковой передачи можно разделить...

13Авг
2023

Архитектура данных в TSDB-решениях для анализа временных рядов

Автор Анна Вичуговав категории NoSql, Блог

архитектура больших данных, TSDB Time Series DataBase базы данных временных рядов, NoSQL для анализа данных временных рядов, обучение Data Science примеры курсы обучение, NoSQL базы данных временных рядов анализ данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем базы данных временных рядов отличаются от реляционных и key-value хранилищ, какова модель данных для хранения метрик, значения которых меняются во времени, какие решения этой категории NoSQL-СУБД сегодня популярны на рынке и для чего они используются. Что такое база данных временных рядов и где она используется Как и следует из...

12Авг
2023

Как организовать мониторинг системных метрик Greenplum: подходы и инструменты

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum администрирование и мониторинг, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, какие системные метрики Greenplum необходимо отслеживать администратору кластера и дата-инженеру для оценки работоспособности и эффективности этой СУБД, а также с помощью каких инструментов это сделать. Мониторинг средствами Greenplum Прежде всего, стоит отметить, что контролировать Greenplum можно с помощью различных инструментов, включенных в систему или доступных в качестве надстроек....

11Авг
2023

События в экосистеме Apache Kafka: проектирование EDA-архитектуры

Автор Анна Вичуговав категории Kafka, Блог

Kafka для архитекторов и разработчиков, архитектура данных и приложений Big Data Kafka обучение примеры курсы CQRS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, проектирование архитектуры приложений Kafka, Kafka EDA примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Будучи распределенной платформой передачи событий, Apache Kafka часто используется для построения архитектуры, управляемой событиями (EDA, Event Driven Architecture). Разбираемся, что такое событие и как его спроектировать, чтобы воплотить идеи EDA с Kafka. Проектирование событий для Apache Kafka В общем смысле событие – это свершившийся факт. В EDA-архитектуре события используются различными...

10Авг
2023

Регулярные выражения в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

регулярные выражения PySpark, Spark SQL примеры курсы обучение, Apache Spark Для аналитиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Каждый дата-инженер и аналитик данных активно использует регулярные выражения для поиска значений в тексте по заданному шаблону. Сегодня рассмотрим, как это сделать с функциями regexp_replace(), rlike() и regexp_extract в Apache Spark на примере небольшого PySpark-приложения. Как работает функция regexp_replace() Регулярным выражением называется последовательность символов, задающая шаблон соответствия в тексте. Например,...