Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

27Май
2022

5 достоинств и 3 недостатка скриптовых компонентов Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Script процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров разберемся, что такое NiFi Scripted Components и как они заполняют пробел между скриптами и пользовательскими компонентами: процессорами, контроллерами, сообщениями и средствами их чтения/записи. Рассмотрим примеры скиптовых процессоров и сервисов, а также определим реальные достоинства и недостатки этих компонентов. Почему просто скриптовых процессоров Apache NiFi недостаточно?...

26Май
2022

Как связать Apache Kafka с Hive: разбор интеграционного коннектора

Автор Анна Вичуговав категории Hive, Kafka, Блог

курсы Hive, курсы Kafka, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Kafka Streams курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, кому и зачем нужно связывать Apache Hive с Kafka, каким образом реализуется эта интеграция, как получить доступ к данным из платформы потоковой передачи событий средствами SQL-on-Hadoop, при чем здесь режимы Kerberos и механизмы безопасности Ranger. Зачем нужна интеграция Apache Hive с Kafka Необходимость связать Apache Hive с Kafka...

25Май
2022

Новинки Apache Flink 1.15: краткий обзор

Автор Анна Вичуговав категории Flink, Блог

Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Весна богата на новые релизы: в начале мая 2022 года вышел Apache Flink 1.15. Рассказываем, что нового в свежем выпуске: краткий обзор самых полезных фич для разработчика распределенных приложений, а также интересные изменения, исправления ошибок и улучшения для дата-инженера. Scala под капотом и спецификация REST API по стандарту OpenAPI Apache...

24Май
2022

Apache Airflow 2.3: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow 2.3 новый релиз обзор, AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow конвейер обработки данных примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько изменений в документации. Разбираемся, что особенно важно для дата-инженера в Apache Airflow 2.3.0. ТОП-7 главных фич Apache AirFlow 2.3.0: краткий...

23Май
2022

Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka курсы примеры обучение, администрирование кластера Kafka курсы примеры обучение, Kafka кластер администратор курсы примеры обучение, балансировка нагрузки в кластере Kafka, Kafka Confluent примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как с ними справляется решение на базе платформы Confluent. Как вручную удалить брокер Kafka из кластера: краткий guide администратора На первый...

21Май
2022

Оконные функции PySpark в Google Colab: пара примеров

Автор Анна Вичуговав категории Spark, Блог

обучение Spark примеры курсы обучение, анализ данных Spark PySpark, PySpark Google Colab примеры курсы обучение, обучение большим данным, курсы дата-аналитик, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с помощью нескольких строк на PySpark. Запуск и использование PySpark в Google Colab Предположим, необходимо определить потенциальный доход от проведения обучающих...

20Май
2022

Зачем вам Data Importer для Neo4j: краткий обзор апрельских обновлений

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Data Importer, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j , обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках продвижения нашего курса по графовой аналитике больших данных в бизнес-приложениях, рассмотрим новый инструмент популярной графовой СУБД Neo4j для загрузки данных - Data Importer. Что это такое, как работает, чем полезно специалисту по Data Science и зачем обновлять его до последней версии. Что такое Neo4j Data Importer Графовая...

19Май
2022

Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

Автор Анна Вичуговав категории Kafka, NiFi, Spark, Блог

NiFi для инженера данных примеры курсы обучение, аналитический конвейер NiFi Kafka Spark Streaming, обучение большим данным, курсы дата-инженеров, обучение инженер данных, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа потоковых данных с Youtube Потоковые данные непрерывно генерируются тысячами источников, которые отправляют записи одновременно и в небольших размерах (порядка килобайт)....

18Май
2022

Управление перемешиванием данных во время выполнения Flink-приложений

Автор Анна Вичуговав категории Flink, Блог

Мы уже писали про динамическое изменение правил фильтрации без перезапуска Flink-приложений. В продолжение этой темы в рамках продвижения нашего нового курса по потоковой обработке данных помощью Apache Flink, сегодня рассмотрим, как избежать неравномерного распределения данных во время выполнения программы. Больше 3-х не собираться: бизнес-правила и динамика разделения данных Перекос или...

17Май
2022

5 способов организации ETL-процессов с Greenplum: команды и утилиты

Автор Анна Вичуговав категории Greenplum, Блог

ETL Greenplum примеры курсы обучение, Arenadata DB Greenplum, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассматривали, как загрузить в Greenplum большие объемы данных. В продолжение этой важной для обучения дата-инженеров темы, сегодня разберем еще несколько инструментов, решающих задачу организации ETL-процессов с этой MPP-СУБД. ETL-инструменты PostgreSQL Хотя Greenplum может хранить и обрабатывать огромные наборы данных на уровне петабайт, эта СУБД не генерирует их самостоятельно,...

16Май
2022

Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Kafka ритейл примеры применения case study use cases, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Проблема своевременного пополнения товарных запасов актуальна для любого ритейлера. Разбираемся, как торговый гигант США Walmart построил свою платформу планирования и пополнения продукции в реальном времени на базе Apache Kafka: ключевые требования к системе, архитектура и принципы работы, настройка конфигураций продюсеров и потребителей. Постановка задачи: пополнение товарного запаса в реальном времени...

15Май
2022

CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow CI/CD DevOps примеры курсы обучение, AirFlow DAG CI/CD DevOps примеры курсы обучение, развертывание DAG AirFlow Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow Python дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Интеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления версиями и как это сделать на примере GitLab CI/CD. Сложности управления DAG в разных средах AirFlow Apache Airflow считается наиболее...

14Май
2022

Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps Feature Store, MLOps мониторинг ML-моделей в production, обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature Store на базе Apache HBase с Phoenix, а также RonDB и Kafka. Что такое хранилище фичей и зачем это Dream11...

13Май
2022

DevOps + MLOps: мониторинг ML-моделей с New Relic

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps мониторинг ML-моделей в production, обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Зачем нужен мониторинг ML-систем в production, чем он отличается от простого отслеживания метрик ПО и при чем здесь MLOps. Как настроить телеметрию ML-приложений в New Relic: 5 простых шагов для специалистов по Machine Learning и дата-инженеров. Зачем нужен мониторинг ML-систем и при чем здесь MLOps В реальных системах машинного обучения...

12Май
2022

Анализ европейской газотранспортной системы с Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

газотранспортная система ЕС граф, курсы графовая аналитика больших данных примеры обучение, Graph Data Science, Neo4j Примеры курсы обучение, обучение Большим данным, Школа Больших Данных Учебный центр Коммерсант

В рамках практического обучения аналитиков данных и специалистов по Data Science реальным задачам современных бизнес-приложений, сегодня разберем актуальную и острую для многих стран тему по промышленному использованию природных ресурсов в современных непростых условиях. Строим граф европейской газотранспортной системы в Neo4j. Создание графа европейской газотранспортной системы в Neo4j Российский природный газ...

11Май
2022

3 режима вывода в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming примеры курсы обучение output modes отличия сходства, режимы вывода в Apache Spark Structured Streaming, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Какие бывают режимы вывода в структурированной потоковой передаче Spark, чем они отличаются и как их использовать на практике: разбираемся на практическом примере. Краткий ликбез по output modes в Apache Spark Structured Streaming для обучения дата-инженеров и разработчиков распределенных приложений. Что такое режимы вывода в Apache Spark Structured Streaming Apache Spark...

10Май
2022

Интеграция Apache NiFi и Hive в ETL-конвейере

Автор Анна Вичуговав категории Hive, NiFi, Блог

ETL NiFi Hive примеры курсы обучение, NiFi для инженеров данных, обучение дата-инженеров, курсы NiFi Hive, обучение большим данным, NoSQL Hadoop NiFi курсы примеры обучение, SQL-on-Hadoop обучение курсы, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров рассмотрим пример интеграции Apache NiFi c Hive в рамках ETL-конвейера потокового веб-скрейпинга, который будет получать данные с веб-страницы практически без кода, обрабатывать их и загружать в таблицу NoSQL-СУБД в реальном времени. Постановка задачи: ETL-процесс веб-скрейпинга В реальной жизни задача считать данные с веб-сайта для последующей...

09Май
2022

Как написать свой ExecuteScript-процессор Apache NiFi на TypeScript

Автор Анна Вичуговав категории NiFi, Блог

TypeScript процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое процессор ExecuteScript в Apache NiFi, как с его помощью реализовать собственную бизнес-логику обработки потоков данных на мульти-парадигмальном языке программирования TypeScript и чем это будет лучше кода на JavaScript. Краткий ликбез для дата-инженеров. Процессор ExecuteScript в Apache NiFi Напомним, за обработку потоков данных в Apache NiFi отвечают...

08Май
2022

Больше или быстрее: ищем компромисс пропускной способности Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Пропускная способность информационной системы на базе Apache Kafka говорит о том, сколько данных могут быть обработаны за определенный период времени. Несмотря на потоковую передачу событий, здесь работает классический закон обратной зависимости скорости обработки данных от их объема. Разбираемся, как найти баланс между производительностью и задержкой. Еще раз о пропускной способности...

07Май
2022

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с несколькими средами AirFlow, как обеспечить повторное использование и воспроизводимость, зачем нужна интеграция с инструментами и процессами CI/CD. Микрооркестрация с множеством...