Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Мар
2022

Модульные тесты для DAG в Apache Airflow: примеры и лучшие практики

Автор Анна Вичуговав категории AirFlow, Блог

модульное тестирование DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Благодаря возможности написать собственный Python-код для операторов и задач DAG’ов, Apache Airflow позволяет разработчикам Data Flow и инженерам данных создавать сложные и эффективные конвейеры пакетной обработки данных. Обеспечить надежность этого многообразия поможет качественное тестирование пользовательского кода. Рассмотрим примеры и рекомендации по написанию модульных тестов. Зачем тестировать DAG AirFlow? Модульные тесты...

10Мар
2022

Импортозамещение в Big Data: Arenadata на Скале

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Скала-Р Arenadata примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Поскольку тема импортозамещения сейчас стала особенно актуальной, сегодня рассмотрим отечественный программно-аппаратный комплекс для хранения и аналитической обработки данных СКАЛА-Р МБД8. Что это такое, как использовать и при чем здесь продукты Arenadata. Машины больших данных СКАЛА-Р МБД8 и Arenadata Разработчиком программно-аппаратного комплекса «Машина больших данных» СКАЛА-Р МБД8 является российская компания ООО...

09Мар
2022

Как распилить PHP-монолит на микросервисы с Apache Kafka: кейс Storyblocks

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, микросервисная архитектура Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про проектирование микросервисной архитектуры на базе Apache Kafka. В продолжение этой актуальной для ИТ-архитекторов, разработчиков и дата-инженеров темы, сегодня рассмотрим опыт американской медиакомпании Storyblocks по переходу от монолитной архитектуры системы поставки контента к распределенным микросервисам с Apache Kafka в Confluent Cloud. Постановка задачи: монолит vs микросервисы По...

08Мар
2022

Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava

Автор Анна Вичуговав категории NoSql, Spark, Блог

обучение Apache Spark, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS S3 и какую роль в этом сыграл вычислительный движок Apache Spark. Постановка задачи: слишком дорогая Cassandra Strava – это глобальный сервис отслеживания активности велосипедистов, бегунов...

07Мар
2022

Аутентификация пользователей Apache NiFi с OIDC от Okta

Автор Анна Вичуговав категории NiFi, Блог

обучение дата-инженеров и администраторов кластера Apache NiFi, Apache NiFi курсы примеры обучение, аутентификация пользователей Apache NiFi, обучение большим данным, Apache NiFi OIDC autentification курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Для практического обучения разработчиков Data Flow и инженеров данных, сегодня разберем способ аутентификации пользователей Apache NiFi на примере Okta OIDC в качестве сервиса провайдера удостоверений. Также вспомним другие способы аутентификации пользователей в этом потоковом маршрутизаторе. Аутентификация в Apache NiFi: краткий ликбез Apache NiFi поддерживает различные типы методов аутентификации пользователей: с...

06Мар
2022

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в ML-приложениях при работе с Data Lake. Команда MSCK REPAIR TABLE в Apache Hive В ML-приложениях особенно важно, как озеро данных (Data...

04Мар
2022

Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Автор Анна Вичуговав категории Greenplum, Блог

Tanzu Greenplum Text Apache Solr Elasticsearch полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, Greenplum Arenadata DB для разработчиков и аналитиков курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с базой данных Greenplum и зачем здесь нужен Zookeeper. Что такое Tanzu Greenplum Text Мы уже рассказывали про основные функциональные возможности...

03Мар
2022

Микросервисная архитектура с Neo4j, Kafka и Outbox-паттерном проектирования

Автор Анна Вичуговав категории Kafka, Neo4j, Блог

обучение Neo4j, обучение Kafka, курсы Neo4j, курсы Kafka, курсы ИТ-архитекторов Big Data, Обучение большим данным, паттерны проектирования микросервисной архитектуры с Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения ИТ-архитекторов и разработчиков распределенных приложений рассмотрим, что представляет собой Transactional Outbox и как этот паттерн проектирования микросервисной архитектуры можно реализовать с помощью Neo4j и Apache Kafka, чтобы создать масштабируемый, общий и абстрактный способ запроса информации независимо от типа объекта. Постановка задачи: проблемы микросервисной архитектуры и способы их...

02Мар
2022

Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka Graceful shutdown, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с Apache Kafka и dyno-контейнерами приложений Heroku. Потоковая обработка данных и проблема завершения потоковых заданий в контейнерах Heroku Carwow - британская...

01Мар
2022

Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы Kafka Spark ClickHouse обучение архитектура пример, аналитика больших данных, дата-инженер курсы примеры обучение Kafka Spark, обучение разработчиков распределенных приложений и ИТ-архитекторов большим данным, Школа Больших Данных Учебный Центр Коммерсант

Практический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно для разрешения каждого вызова API в определенном временном диапазоне. Анализ событий пользовательского поведения в реальном времени Основным продуктом международной ИТ-компании...

28Фев
2022

Внешний датчик в Apache Airflow для поэтапной загрузки данных в таблицы DWH

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, external sensor airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про датчики или сенсоры - особый тип операторов Apache AirFlow, предназначенных для ожидания какого-то события. Сегодня рассмотрим практический пример обучения дата-инженеров и разработчиков по использованию внешнего сенсора в рамках типовой задачи дата-инженерии по организации ETL/ELT-процессов при поэтапной загрузке данных в DWH для OLAP-систем. Постановка задачи: поэтапная загрузка...

27Фев
2022

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Анна Вичуговав категории HBase, NoSql, Блог

Cloudera Data Platform Operational Database HBase, HBase Phoenix курсы примеры обучение, обучение Hadoop SQL администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные из кластера HBase в Cloudera Operational Database, избежав их потери и других подводных камней. Что такое Cloudera Operational Database: назначение...

26Фев
2022

Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчиков аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark REST API UDF курсы, примеры Spark парсинг JSON, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как загружать большие объемы данных из REST API-сервисов с Apache Spark, написав на PySpark собственную UDF-функцию с преобразованием withColumn(), чтобы воспользоваться всеми преимуществами распределенных вычислений этого фреймворка. Локальное исполнение на драйвере и распараллеливание REST-API вызовов в Apache Spark Мы уже рассказывали, что конвертация Python-скрипта в распределенный код Apache...

25Фев
2022

Главные улучшения Cloudera Flow Management 2.1.3 на базе Apache NiFi 1.15

Автор Анна Вичуговав категории NiFi, Блог

Cloudera Flow Management 2.1.13 Apache NiFi 1.15 примеры курсы обучение, пример Apache NiFi администратор курсы обучение, NiFi для инженеров данных, NiFi обновление для дата-инженеров и администраторов, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В феврале 2022 года вышел новый релиз Cloudera Flow Management 2.1.3 для совместного использования с Cloudera Manager и CDP Private Cloud Base 7.1.7. Этот выпуск основан на Apache NiFi 1.15, о новинках которого мы ранее рассказывали здесь, здесь и здесь. Сейчас рассмотрим основные преимущества этого решения. 5 главных улучшений в...

24Фев
2022

Serverless для Apache Kafka c Upstash

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, Upstash Kafka, курсы Kafka, Kafka serverless, администрирование кластера Kafka, Apache Kafka для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня поговорим про администрирование кластера Apache Kafka и разработку потоковых приложений передачи и разберем, как обеспечить их работу в бессерверном режиме с платформой Upstash. Финансовая экономия, простота сопровождения и другие преимущества FaaS-сервисов и serverless-подхода с RESTfull API для обработки событий в реальном времени. Снова про serverless: что такое Upstash Kafka...

23Фев
2022

NLP с Graph Data Science в Neo4j: 3 эмбеддинг-алгоритма

Автор Анна Вичуговав категории Machine Learning, Neo4j, Блог

обработка данных NLP, Neo4j курсы примеры обучение, эмбеддинги NLP Neo4j, курсы обучение Data Science NLP, Graph Data Science, машинное обучение и аналитика больших данных курсы, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса графовым алгоритмам в бизнес-приложениях, сегодня разберем эмбеддинг-алгоритмы в библиотеке Graph Data Science СУБД Neo4j: их особенности и возможности практического использования для задач обработки естественного языка (NLP). Также рассмотрим, чем FastRP отличается от GraphSAGE с Node2Vec. NLP, эмбеддинги и Graph Data Science В обработке естественного языка...

22Фев
2022

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Анна Вичуговав категории Hive, NoSql, Блог

Apache Hive обучение курсы примеры, SQL-on-Hadoop курсы примеры обучение, Hive QL для адат-инженера аналитика и разработчика примеры курсы обучение, Hive SQL курсы примеры обучение, HDFS SQL Hadoop Hive курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache Hive, его возможности и ограничения, а также связь с HiveQL. Преобразования в Apache Hive Apache Hive – это популярная экосистема...

21Фев
2022

Я за тобой слежу: настраиваем мониторинг Spark-приложений в кластере Kubernetes

Автор Анна Вичуговав категории Spark, Блог

Spark Kubernetes администратор кластера, курсы Apache Spark для администраторов и дата-инженеров примеры обучение, курсы примеры обучение Spark Kubernetes с Prometheus и Grafana, обучение Spark курсы, примеры Spark администрирование кластера, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как организовать удобный мониторинг за приложениями Apache Spark в кластере Kubernetes с помощью Prometheus и Grafana: пошаговый guide для администраторов и дата-инженеров с примерами. Создаем свою альтернативу наглядным дэшбордам AWS EMR с Java-библиотекой Dropwizard Metrics и средством настройки оповещений Alertmanager. Не только AWS EMR или как следить за Spark-приложениями в...

20Фев
2022

MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3

Автор Анна Вичуговав категории AirFlow, Machine Learning, Spark, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы Spark Для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark версии 3 сократил расходы на облачный EMR-кластер почти в 2 раза. MLOps с AirFlow и MLFlow в облаке AWS Ранее...

19Фев
2022

Apache Airflow 2.2.0: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В октябре прошлого года вышел крупный релиз Apache AirFlow 2.2.0. Разбираем его главные фичи, которые больше всего интересны с точки зрения инженерии данных: пользовательские расписания и декораторы, отложенные задачи, а также валидация параметров DAG по JSON-схеме. Краткий обзор обновлений AirFlow 2.2.0 Хотя последней версией популярного batch-планировщика задач Apache Airflow на...