Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

15Июл
2021

5 проблем Apache NiFi на Kubernetes и способы их решения

Автор Анна Вичуговав категории NiFi, Блог

Nifi on Kubernetes, курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Clouder NiFi, Школа Больших Данных Учебный центр Коммерсант

В рамках нового курса Эксплуатация Apache NIFI, сегодня разберем особенности развертывания этого маршрутизатора потоков Big Data на платформе управления контейнерными приложениями Kubernetes. Советы дата-инженерам, как сократить расходы на AWS, избежать сбоев узлов и потерь данных, обеспечить безопасность и автоматическое масштабирование облачного кластера Apache NiFi в Amazon EKS, а также зачем...

07Июл
2021

3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Clouder NiFi, Школа Больших Данных Учебный центр Коммерсант

Запуская наш новый курс по Эксплуатация Apache NIFI, сегодня рассмотрим 3 популярных вопроса про этот Big Data фреймворк с комментариями компании Cloudera. Читайте далее, может ли NiFi заменить пакетные ETL-оркестраторы, как использовать REST API для управления потоками данных в этом фреймворке, а также где настраивать политики управления доступом в многопользовательской...

18Май
2021

Как построить OLAP-конвейер в реальном времени на Greenplum и Apache NiFi: разбор интеграционного коннектора для приема больших данных

Автор Анна Вичуговав категории Greenplum, NiFi, Use Cases, Блог

обучение NiFi, курсы Apache NiFi, обучение инженеров данных, курсы инженеров данных, Greenplum NiFi Интеграция, Greenplum NiFi для дата-инженера, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем еще одну интересную тему из нашего нового курса «Greenplum для инженеров данных» по построению конвейеров приема данных для этой MPP-СУБД в рамках веб-интерфейса платформы автоматизированного управления потоками работ Apache NiFi. Читайте далее, как устроен коннектор VMware Tanzu Greenplum для Apache NiFi и какие возможности он предоставляет дата-инженеру. Что...

14Апр
2021

ОЗУ, Kafka и Logstash для решения IOPS-проблемы в кластере Apache NiFi

Автор Анна Вичуговав категории Kafka, NiFi, Блог

курсы NiFi, обучение Apache NiFi, курсы Kafka, обучение Apache Kafka, курсы инженеров Big Data, курсы дата-инженеров, Kafka + NiFi

В рамках обучения дата-инженеров, сегодня рассмотрим проблему роста числа операций ввода-вывода в секунду (IOPS) при обработке большого количества данных в потоках Apache NiFi и способы ее решения. Читайте далее, как перемещение репозиториев NiFi с жесткого диска в оперативную память снижает IOPS, а также зачем при этом в Big Data систему...

26Окт
2020

Как работает SQL в Apache NiFi: потоковая обработка Big Data с помощью структурированных запросов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

обработка данных, большие данные, Big Data, NiFi, ETL, SQL, Impala, курсы по Apache NiFi, обучение инженеров Data Flow, курсы дата-инженеров, обучение инженеров Big Data

Сегодня рассмотрим, как можно фильтровать потоки больших данных в Apache NiFi через типовой механизм SQL-запросов. Читайте далее, чем эта ETL-платформа стриминговой маршрутизации Big Data отличается от других систем, которые используют язык структурированных запросов вне СУБД, какие процессоры позволяют работать с потоковыми файлами (FlowFile) как с таблицами базы данных и при...

23Окт
2020

Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Автор Анна Вичуговав категории Kafka, Machine Learning, NiFi, Spark, Use Cases, Блог

Spark, обработка данных, большие данные, Big Data, NiFi, ETL, Kafka, машинное обучение, Machine Learning, курсы по Apache NiFi, обучение инженеров больших данных, Big Data Engineer обучение

Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache NiFi, Kafka и Spark, преобразование JSON, а также обогащение и сохранение данных в Hive, HDFS и Amazon S3. Пример потокового...

09Окт
2020

Как укротить NiFi: решаем проблемы ввода-вывода

Автор Анна Вичуговав категории Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, обработка данных, NiFi, архитектура, администрирование, Elasticsearch, Kafka

Apache NiFi – это простая и мощная система для обработки и распределения больших данных в потоковом режиме, которая отлично справляется с огромными объемами и скоростями, оперируя с сотнями гигабайт и даже терабайтами информации. Однако, на практике при работе с этой Big Data платформой можно столкнуться с проблемой ввода-вывода (IOPS, Input-Output...

24Сен
2020

Что такое Arenadata Streaming: сочетаем Apache Kafka с NiFi в корпоративном масштабе

Автор Анна Вичуговав категории Kafka, NiFi, Блог

Arenadata Streaming Kafka NiFi? Arenadata, Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Мы уже рассказывали про преимущества совместного использования Apache Kafka и NiFi. Сегодня рассмотрим, как эти две популярные технологии потоковой обработки больших данных (Big Data) сочетаются в рамках единого решения от отечественного разработчика - Arenadata Streaming. Читайте далее про основные сценарии использования и ключевые достоинства этого современного продукта класса Event Stream...

10Сен
2020

Как управлять собственным Data Flow на Apache Spark с NiFi через Livy: разбираемся с процессорами и контроллерами

Автор Анна Вичуговав категории NiFi, Spark, Use Cases, Блог

Livy, Spark, архитектура, обработка данных, Big Data, большие данные, Hadoop, NiFi, PySpark, Python, ETL

Apache Livy полезен не только при организации конвейеров обработки больших данных (Big Data pipelines) на Spark и Airflow, о чем мы рассказывали здесь. Сегодня рассмотрим, как организовать запланированный запуск пакетных Spark-заданий из Apache NiFi через REST-API Livy, с какими проблемами можно при этом столкнуться и что поможет их решить. Что...

11Авг
2020

Комбо потоковой обработки Big Data с Apache Kafka и NiFi: пара практических примеров

Автор Анна Вичуговав категории Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Сегодня рассмотрим примеры совместного использования двух популярных технологий потоковой обработки больших данных (Big Data): Apache Kafka и NiFi. Читайте в нашей статье, как они дополняют друг друга, каковы преимущества их объединения и каким образом инженеру Data Flow это реализовать на практике. Еще раз о том, что такое Apache Kafka и...