Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

06Сен
2021

Как Byteman упрощает разработку и отладку приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink, разработка Flink-приложений, обучение Apache Flink, курсы Apache Flink Для разработчиков, Byteman для отладки Java-кода, обучение разработчиков Big Data, курсы Hadoop Для разработчиков, разработка в Apache Hadoop курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков распределенных приложений, сегодня рассмотрим, как упростить тестирование и отладку заданий Apache Flink с помощью Byteman. Читайте далее, как внедрить Java-код в JVM, чтобы извлечь нужные сведения о выполнении Flink-приложения на платформе Veverica и ускорить разработку. Разработка и отладка приложений Apache Flink: ежедневные сложности В рассматриваемом примере...

05Сен
2021

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между задачами с помощью обычных функций Python. На примере ETL-конвейера мы объясним, как соорудить DAG на основе TaskFlow API, а также...

03Сен
2021

Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог

SIEM, NiFi, Apache NiFi Для дата-инженеров, инженерия больших данных, SIEM кибербезопасность Apache NiFi, Apache NiFi для инженеров данных, Apache NiFi для дата-инженеров, информационная безопасность с Apache NiFi, управление потоками данных Apache NiFi, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и распределения security-событий с помощью Apache NiFi и его легковесного агента MiNiFi для устройств интернета вещей (Internet Of Things, IoT). Что...

02Сен
2021

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Анна Вичуговав категории Internet of Things, Kafka, Use Cases, Блог

обучение Apache Kafka, курсы Kafka для дата-инженеров и разработчиков, Kafka Streams курсы обучение, Internet of things, IoT, интернет вещей кейсы примеры, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema Registry и Kafka Streams. Читайте далее, как определить потоковый процессор для парсинга данных в CSV и JSON-форматах с использованием схемы...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

30Авг
2021

Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, примеры Internet of Things Kafka, интернет вещей кейсы, IoT Kafka, потоковая обработка больших данных Apache Kafka, Школа Больших Данных учебный центр Коммерсант

Являясь лидером отрасли, IoT-устройства Tesla обрабатывают триллионы событий в день, чтобы повысить эффективность своих электроавтомобилей. Однако, такая производительность была получена не сразу: чтобы достичь ее, инженерам компании пришлось решить множество проблем из области интернета вещей (Internet of Things, IoT). Сегодня рассмотрим, как часть из них была решена с помощью Apache...

24Авг
2021

Как перейти к Apache NiFi от Storm: пара практических кейсов

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi и Kafka кейсы примеры обучение курсы, процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Apache Storm обычно сравнивают со другими популярными фреймворками потоковой аналитики больших данных: Spark и Flink. Однако для несложной обработки событий дата-инженер может заменить эти платформы более легким инструментом маршрутизации потоковых данных в виде Apache NiFi. Сегодня сравним Apache NiFi co Storm и разберем практический пример, когда предпочтительнее именно его для...

23Авг
2021

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Apache Spark SQL примеры, обработка данных в Apache Spark SQL, аналитика больших данных с Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache() для этих структур, когда использовать SortWithinPartitions() вместо sort(), а также парочка тонкостей обработки Parquet-таблиц в Spark SQL и кэширование метаданных...

21Авг
2021

Чем хорош Splunk S2S Source Connector от Confluent и как это связано с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Курсы по Kafka, обучение Apache Kafka, Kafka Connect курсы обучение администраторов и дата-инженеров, обучение администрирование кластера Apache Kafka, интеграция систем с Apache Kafka, коннектор Spalunk Kafka, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов Apache Kafka рассмотрим, зачем Confluent выпустил премиум коннектор Splunk S2S Source и как на базе этих платформ построить эффективную систему потоковой аналитики больших данных. Также читайте далее, что такое универсальный сервер рассылки Splunk и какие конфигурации коннектора позволяют автоматически создавать топик Kafka для сбора...