Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Фев
2022

Внешний датчик в Apache Airflow для поэтапной загрузки данных в таблицы DWH

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, external sensor airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про датчики или сенсоры - особый тип операторов Apache AirFlow, предназначенных для ожидания какого-то события. Сегодня рассмотрим практический пример обучения дата-инженеров и разработчиков по использованию внешнего сенсора в рамках типовой задачи дата-инженерии по организации ETL/ELT-процессов при поэтапной загрузке данных в DWH для OLAP-систем. Постановка задачи: поэтапная загрузка...

27Фев
2022

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Анна Вичуговав категории HBase, NoSql, Блог

Cloudera Data Platform Operational Database HBase, HBase Phoenix курсы примеры обучение, обучение Hadoop SQL администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные из кластера HBase в Cloudera Operational Database, избежав их потери и других подводных камней. Что такое Cloudera Operational Database: назначение...

26Фев
2022

Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчиков аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark REST API UDF курсы, примеры Spark парсинг JSON, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как загружать большие объемы данных из REST API-сервисов с Apache Spark, написав на PySpark собственную UDF-функцию с преобразованием withColumn(), чтобы воспользоваться всеми преимуществами распределенных вычислений этого фреймворка. Локальное исполнение на драйвере и распараллеливание REST-API вызовов в Apache Spark Мы уже рассказывали, что конвертация Python-скрипта в распределенный код Apache...

25Фев
2022

Главные улучшения Cloudera Flow Management 2.1.3 на базе Apache NiFi 1.15

Автор Анна Вичуговав категории NiFi, Блог

Cloudera Flow Management 2.1.13 Apache NiFi 1.15 примеры курсы обучение, пример Apache NiFi администратор курсы обучение, NiFi для инженеров данных, NiFi обновление для дата-инженеров и администраторов, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В феврале 2022 года вышел новый релиз Cloudera Flow Management 2.1.3 для совместного использования с Cloudera Manager и CDP Private Cloud Base 7.1.7. Этот выпуск основан на Apache NiFi 1.15, о новинках которого мы ранее рассказывали здесь, здесь и здесь. Сейчас рассмотрим основные преимущества этого решения. 5 главных улучшений в...

24Фев
2022

Serverless для Apache Kafka c Upstash

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, Upstash Kafka, курсы Kafka, Kafka serverless, администрирование кластера Kafka, Apache Kafka для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня поговорим про администрирование кластера Apache Kafka и разработку потоковых приложений передачи и разберем, как обеспечить их работу в бессерверном режиме с платформой Upstash. Финансовая экономия, простота сопровождения и другие преимущества FaaS-сервисов и serverless-подхода с RESTfull API для обработки событий в реальном времени. Снова про serverless: что такое Upstash Kafka...

23Фев
2022

NLP с Graph Data Science в Neo4j: 3 эмбеддинг-алгоритма

Автор Анна Вичуговав категории Machine Learning, Neo4j, Блог

обработка данных NLP, Neo4j курсы примеры обучение, эмбеддинги NLP Neo4j, курсы обучение Data Science NLP, Graph Data Science, машинное обучение и аналитика больших данных курсы, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса графовым алгоритмам в бизнес-приложениях, сегодня разберем эмбеддинг-алгоритмы в библиотеке Graph Data Science СУБД Neo4j: их особенности и возможности практического использования для задач обработки естественного языка (NLP). Также рассмотрим, чем FastRP отличается от GraphSAGE с Node2Vec. NLP, эмбеддинги и Graph Data Science В обработке естественного языка...

22Фев
2022

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Анна Вичуговав категории Hive, NoSql, Блог

Apache Hive обучение курсы примеры, SQL-on-Hadoop курсы примеры обучение, Hive QL для адат-инженера аналитика и разработчика примеры курсы обучение, Hive SQL курсы примеры обучение, HDFS SQL Hadoop Hive курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache Hive, его возможности и ограничения, а также связь с HiveQL. Преобразования в Apache Hive Apache Hive – это популярная экосистема...

20Фев
2022

MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3

Автор Анна Вичуговав категории AirFlow, Machine Learning, Spark, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы Spark Для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark версии 3 сократил расходы на облачный EMR-кластер почти в 2 раза. MLOps с AirFlow и MLFlow в облаке AWS Ранее...

19Фев
2022

Apache Airflow 2.2.0: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В октябре прошлого года вышел крупный релиз Apache AirFlow 2.2.0. Разбираем его главные фичи, которые больше всего интересны с точки зрения инженерии данных: пользовательские расписания и декораторы, отложенные задачи, а также валидация параметров DAG по JSON-схеме. Краткий обзор обновлений AirFlow 2.2.0 Хотя последней версией популярного batch-планировщика задач Apache Airflow на...

18Фев
2022

Копирование сложных структур данных из Kafka в СУБД с SMT и JDBC Sink Connector

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka курсы примеры, Apache Kafka Connect для разработчиков, парсинг JSON Kafka Streams KsqlDB Connect, обучение большим данным, Kafka SMT использование пример, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассматривали особенности обработки вложенных структур данных на примере парсинга JSON-файлов с Apache Spark и Hive. Развивая эту тему, сегодня поговорим про перенос записей с вложенными массивами из топиков Apache Kafka в реляционные СУБД с пользовательскими SMT-преобразователями и JDBC-коннектором: кейс для разработчиков. Проблемы обработки сложных структур данных с JDBC-коннектором...

17Фев
2022

Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum R клиент статистический анализ данных Arenadata DB обучение курсы примеры, Greenplum для дата-аналитика обучение курс примеры, GreenplumR примеры курсы обучение, Arenadata DB примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки этого инструмента аналитики больших данных. Что такое GreenplumR Хотя основным языком в области Data Science сегодня считается Python, иногда специалисты...

16Фев
2022

Анализ графа NFT-транзакций с Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Блог

аналитика больших данных с Neo4j и Cypher, курсы Neo4j и Cypher, обучение Neo4j и Cypher, графовая аналитика Big Data курсы примеры обучение, NFT Neo4j Cypher, обучение дата-аналитиков курсы примеры, аналитик данных курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовым алгоритмам в бизнес-приложениях, сегодня рассмотрим популярную сегодня тему про невзаимозаменяемые токены в криптовалютах и не только. Пример анализа графа по NFT-транзакциям в графовой СУБД Neo4j с помощью инструкций языка запросов Cypher. Что такое NFT и причем здесь блокчейн с криптовалютами Уникальный или невзаимозаменяемый...

15Фев
2022

Apache NiFi 1.15.3: что нового?

Автор Анна Вичуговав категории NiFi, Блог

пример Apache NiFi администратор курсы обучение, NiFi для инженеров данных, NiFi обновление для дата-инженеров и администраторов, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про декабрьский релиз Apache NiFi. Спустя месяц, 18 января 2022 года сообщество выпустило новую версию фреймворка – 1.15.3 с аутентифицированным доступом к SFTP-серверам через прокси-серверы SOCKS и улучшенным потреблением памяти. Разбираем 9 исправленных багов и 2 улучшения, а также особенности миграции на свежий выпуск. Снова про библиотеки...

14Фев
2022

Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas

Автор Анна Вичуговав категории Spark, Блог

анализ данных временных рядов Spark Flint пример, курсы аналитик больших данных, Apache Spark для аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark курсы, примеры Spark обработка CSV, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков рассмотрим пример мониторинга состояния электрогенераторов с помощью анализа данных временных рядов и ранжирования в pandas для предупреждения выхода оборудования из строя. А также разберем основы анализа временных рядов на больших данных с открытой библиотекой Flint для Apache Spark. Постановка задачи: температура и производительность...

13Фев
2022

Как создать собственный сенсор Apache Airflow: пример

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы AirFlow администратор кластера, AirFlow сенсоры DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот особых операторов Apache AirFlow, разберемся с режимами работы датчиков, а также рассмотрим, как создать собственный сенсор. Краткий ликбез по разработке своего sensor’а с лучшими практиками настройки и использования в DAG’ах AirFlow. Что такое сенсор: краткий ликбез по AirFlow Сенсоры или датчики AirFlow — это особый тип...

12Фев
2022

5 шагов по миграции на новый релиз Apache Kafka 3.1.0 и подводные камни

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka, обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

Вчера мы писали о недавно вышедшем свежем релизе Apache Kafka 3.1.0, который вышел в январе 2022 года. Сегодня рассмотрим, как безболезненно перейти на эту версию и избежать возможных побочных эффектов, связанных с некоторыми архитектурными изменениями платформы. Побочные эффекты и подводные камни обновления Напомним, в Apache Kafka 3.1.0 добавлена новая фича...

11Фев
2022

Apache Kafka 3.1.0: что нового?

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

24 января 2022 года вышел новый релиз Apache Kafka. Главные новинки самой последней на сегодня стабильной версии 3.1.0: добавленные фичи, улучшения и исправленные баги краткий обзор для разработчиков распределенных приложений Kafka Streams и администраторов кластера этой платформы потоковой передачи событий. Новинки Apache Kafka 3.1.0 для администратора кластера В свежем релизе...

10Фев
2022

Архитектура больших данных: 5 шаблонов проектирования распределенных систем

Автор Анна Вичуговав категории Kafka, Блог

архитектура больших данных курсы примеры обучение, шаблоны проектирования распределенных приложений, Saga CQRS Sharded services микросервисная архитектура примеры курсы обучение, курсы для ИТ-архитекторов по Big Data, обучение разработчиков больших данных распределенных приложений, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про архитектурный шаблон CQRS и его реализацию на базе Apache Kafka. В продолжение этой темы для обучения ИТ-архитекторов и разработчиков Big Data приложений, сегодня рассмотрим еще несколько популярных шаблонов проектирования распределенных систем: достоинства, недостатки, примеры реализации и способы их использования. Шаблоны проектирования распределенных систем: что это и...

09Фев
2022

От AWS EMR к Apache Spark 3 на Kubernetes в маркетплейсе Joom

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Spark AirFlow Kubernetes курсы примеры обучение, обучение дата-инженеров, курсы Apache Spark, курсы AirFlow, обучение инженеров данных Big Data, Школа Больших Данных Учебный центр Коммерсант

Развивая наши курсы по Apache Spark и AirFlow для дата-инженеров и администраторов кластеров, сегодня рассмотрим кейс крупного маркетплейса Joom по переходу от 2-ой версии фреймворка на облачной платформе EMR к развертыванию сотен распределенных заданий на 3-ей версии в Amazon Elastic Kubernetes Service. Про сокращение расходов, повышение производительности и апдейт вычислительных движков. Постановка...

08Фев
2022

Дедупликация, нумерация и ранжирование строк в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, курсы SQL-on-Hadoop, Hive Hadoop курсы примеры обучение, обучение дата-инженеров, нумерация с трок в Hive, Hive SQL Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по SQL-on-Hadoop для дата-инженеров и разработчиков распределенных приложений интересные примеры, сегодня рассмотрим пару практических техник по работе с Apache Hive. Читайте далее, как автоматически пронумеровать строки Hive-таблицы, исключив дубликаты в последовательности, и чем аналитическая функция row_number() отличается от rank() с dense_rank(). Генерация порядкового номера строки...