Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Сен
2021

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Анна Вичуговав категории Internet of Things, Kafka, Use Cases, Блог

обучение Apache Kafka, курсы Kafka для дата-инженеров и разработчиков, Kafka Streams курсы обучение, Internet of things, IoT, интернет вещей кейсы примеры, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema Registry и Kafka Streams. Читайте далее, как определить потоковый процессор для парсинга данных в CSV и JSON-форматах с использованием схемы...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

30Авг
2021

Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, примеры Internet of Things Kafka, интернет вещей кейсы, IoT Kafka, потоковая обработка больших данных Apache Kafka, Школа Больших Данных учебный центр Коммерсант

Являясь лидером отрасли, IoT-устройства Tesla обрабатывают триллионы событий в день, чтобы повысить эффективность своих электроавтомобилей. Однако, такая производительность была получена не сразу: чтобы достичь ее, инженерам компании пришлось решить множество проблем из области интернета вещей (Internet of Things, IoT). Сегодня рассмотрим, как часть из них была решена с помощью Apache...

27Авг
2021

Как лучше настроить GPORCA для оптимизации SQL-запросов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

В рамках программы курсов по Greenplum и Arenadata DB, сегодня рассмотрим важную для разработчиков и администраторов тему об особенностях оптимизатора SQL-запросов GPORCA, который ускоряет аналитику больших данных лучше встроенного PostgreSQL-планировщика. Читайте далее, как выбирать ключ дистрибуции, почему для GPORCA важна унифицированная структура многоуровневой партиционированной таблицы и каким образом оптимизаторы обрабатывают...

26Авг
2021

Управление кластерами Apache Hadoop и Spark с YARN: 3 варианта планирования ресурсов

Автор Анна Вичуговав категории Spark, Блог

обучение Hadoop, Hadoop YARN Для инженера данных и администратора обучение курсы, курсы по Apache Hadoop Для инженеров и администраторов, основы Apache Hadoop YARN, администрирование кластера Apache Hadoop Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

YARN считается самым распространенным диспетчером ресурсов в кластерах Apache Hadoop и Spark, отвечая за выделение ресурсам распределенным приложениям. Сегодня в рамках обучения дата-инженеров и администраторов Hadoop рассмотрим достоинства и недостатки 3-х вариантов планирования ресурсов в YARN. Читайте далее, что такое иерархия очереди и как вычисляется ее мгновенная справедливая доля. Планирование...

23Авг
2021

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Apache Spark SQL примеры, обработка данных в Apache Spark SQL, аналитика больших данных с Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache() для этих структур, когда использовать SortWithinPartitions() вместо sort(), а также парочка тонкостей обработки Parquet-таблиц в Spark SQL и кэширование метаданных...

21Авг
2021

Чем хорош Splunk S2S Source Connector от Confluent и как это связано с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Курсы по Kafka, обучение Apache Kafka, Kafka Connect курсы обучение администраторов и дата-инженеров, обучение администрирование кластера Apache Kafka, интеграция систем с Apache Kafka, коннектор Spalunk Kafka, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов Apache Kafka рассмотрим, зачем Confluent выпустил премиум коннектор Splunk S2S Source и как на базе этих платформ построить эффективную систему потоковой аналитики больших данных. Также читайте далее, что такое универсальный сервер рассылки Splunk и какие конфигурации коннектора позволяют автоматически создавать топик Kafka для сбора...

20Авг
2021

Что такое Erasure Coding и как это устроено: под капотом Apache Hadoop HDFS 3.3.1

Автор Анна Вичуговав категории Блог, Статьи

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает HDFS Erasure Coding, Apache Hadoop Erasure Coding HDFS администратор кластера курсы обучение для инженеров данных, курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про новые функции свежего релиза Apache Hadoop 3.3.1. Сегодня разберем подробнее, что такое Erasure Coding и как эта технология кодирования со стиранием экономит место в распределенной файловой системе HDFS. Также заглянем внутрь EC и рассмотрим, чем алгоритм Рида-Соломона лучше ассоциативной операции XOR для обеспечения отказоустойчивости хранилища больших...

18Авг
2021

Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Автор Анна Вичуговав категории Hive, Блог

Beekeeper Hive, обучение Hadoop SQL администратор, курсы Hive, обучение Hive Hadoop, курсы Hadoop, обучение Hive SQL, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня рассмотрим, что такое Beekeeper и как этот сервис помогает администраторам Hadoop и пользователям Apache Hive очищать метаданные этого NoSQL-хранилища. Читайте далее, зачем удалять устаревшие пути из Metastore и как настроить конфигурацию Hive-таблиц для автоматического прослушивания событий их изменения. Для чего очищать потерянные метаданные в Apache Hive Напомним, Apache Hive...