Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Сен
2021

Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Spark, Apache Spark Для разработчиков и дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Spark является одной из главных технологий стека Big Data, этот фреймворк не очень хорошо работает с множеством файлов небольшого размера. Поэтому в рамках обучения дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим, почему это происходит, зачем динамически сжимать файлы в Apache Spark и как это делает платформа...

06Сен
2021

Как Byteman упрощает разработку и отладку приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink, разработка Flink-приложений, обучение Apache Flink, курсы Apache Flink Для разработчиков, Byteman для отладки Java-кода, обучение разработчиков Big Data, курсы Hadoop Для разработчиков, разработка в Apache Hadoop курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков распределенных приложений, сегодня рассмотрим, как упростить тестирование и отладку заданий Apache Flink с помощью Byteman. Читайте далее, как внедрить Java-код в JVM, чтобы извлечь нужные сведения о выполнении Flink-приложения на платформе Veverica и ускорить разработку. Разработка и отладка приложений Apache Flink: ежедневные сложности В рассматриваемом примере...

05Сен
2021

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между задачами с помощью обычных функций Python. На примере ETL-конвейера мы объясним, как соорудить DAG на основе TaskFlow API, а также...

03Сен
2021

Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог

SIEM, NiFi, Apache NiFi Для дата-инженеров, инженерия больших данных, SIEM кибербезопасность Apache NiFi, Apache NiFi для инженеров данных, Apache NiFi для дата-инженеров, информационная безопасность с Apache NiFi, управление потоками данных Apache NiFi, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и распределения security-событий с помощью Apache NiFi и его легковесного агента MiNiFi для устройств интернета вещей (Internet Of Things, IoT). Что...

02Сен
2021

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Анна Вичуговав категории Internet of Things, Kafka, Use Cases, Блог

обучение Apache Kafka, курсы Kafka для дата-инженеров и разработчиков, Kafka Streams курсы обучение, Internet of things, IoT, интернет вещей кейсы примеры, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema Registry и Kafka Streams. Читайте далее, как определить потоковый процессор для парсинга данных в CSV и JSON-форматах с использованием схемы...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....