Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

23Сен
2021

Что такое Apache Hop: еще одна альтернатива AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Hop примеры, Apache Hop vs AirFlow, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Airflow сегодня считается главным инструментом дата-инженерии, он далеко не единственное средство оркестрации пакетных заданий и построения конвейеров обработки больших данных. В рамках продвижения наших курсов для инженеров Big Data, сегодня рассмотрим, что такое Apache Hop, чем это отличается от AirFlow и где использовать эту платформу, а...

22Сен
2021

3 совета администратору Greenplum: лучшие практики настройки кластера

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Хотя наши практические курсы по Greenplum и Arenadata DB больше ориентированы на аналитиков и дата-инженеров, чем на администраторов, в программы обучения также включены важные сведения по настройке этих MPP-СУБД. В этой статье мы собрали лучшие практики системного конфигурирования кластера Greenplum, которые помогут повысить эффективность аналитики больших данных в этой Big...

21Сен
2021

Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных в контекстной рекламе пример, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков событий - показов и кликов, чтобы вычислить конверсию рекламной кампании средствами Apache Flink или Spark. Потоки Big Data за фасадом...

20Сен
2021

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Hive SQL-on-Hadoop, обучение разработчиков Hadoop NoSQL, разработка Apache Spark Hive обучение курсы, Apache Spark для разработчиков курс обучение примеры, Apache Spark примеры, Apache Hive администрирование аналитика данных примеры обучение курсы, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем ограничивать доступ к keytab-файлу в кластерах с поддержкой защищенного протокола Kerberos, а также как реализовать отслеживание медленно меняющихся измерений в...

17Сен
2021

Горизонтальное масштабирование кластера Apache Kafka: тонкости переназначения разделов

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В поддержку курсов по администрированию Apache Kafka, сегодня рассмотрим особенности масштабирования кластера и связанное с этим переназначение разделов. Читайте далее, чем горизонтальное масштабирование лучше вертикального, как переназначить разделы между брокерами Kafka с целью перебалансировки нагрузки и зачем ограничивать полосу пропускания для перемещения реплик между узлами кластера. Проблемы масштабирования кластера Apache...

16Сен
2021

Что такое группировка и сортировка и какую роль они играют для Impala

Автор Сергей Ушаковв категории NoSql, Блог

курсы по apache phoenix, курсы spark sql, курс администраторов greenplum, big data курсы москва, курсы arenadata hadoop, курсы для инженеров данных, курсы по nosql, курс hbase, курсы nosql в москве

В этой статье мы поговорим про функции группировки и сортировки в распределенной СУБД Apache Impala. Читайте далее про особенности работы механизма группировки и сортировки Big Data, которые позволяют Impala-разработчику обрабатывать большие массивы данных любых типов с минимальными временными затратами. Как работает механизм группировки и сортировки данных: особенности обработки Big Data...

16Сен
2021

Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

Автор Анна Вичуговав категории Spark, Блог

GUI курсы Спарк, обучение разработчиков Спарк, разработка Apache Spark обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Spark-приложений, сегодня рассмотрим, как сохранить датафрейм в памяти вне кучи исполнителя и зачем это нужно. Вас ждет краткий ликбез по управлению памятью в Apache Spark с описанием настраиваемых конфигураций. Также на простом практическом примере разберем, как это сделать и где в пользовательском веб-интерфейсе фреймворка посмотреть результаты...

15Сен
2021

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Анна Вичуговав категории Flink, Internet of Things, Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, Apache Kafka для разработчиков, потоковая обработка событий с Apache Kafka и Flink курсы обучение, обучение большим данным для разработчиков, курсы по Big Data, потоковая аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data в реальном производстве на примере телеметрии процессов ферментации продуктов в небольшой частной пивоварне. Постановка задачи: бизнес-контекст и используемые технологии В...

14Сен
2021

Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей. IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Завершая серию статей по IoT-платформе компании Tesla на базе Apache Kafka, сегодня рассмотрим проблемы пиковой загрузки системы и особенности обработки высокоприоритетных событий. Читайте далее, как оптимально определить ключ раздела, чтобы снизить затраты на передачу данных, избежать перегрузки в пиковые моменты и отделить пользователей данных от разработчиков и дата-инженеров. Тонкости обработки...

13Сен
2021

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Анна Вичуговав категории AirFlow, Spark, Блог

озеро данных для дата-инженера курсы обучение, ETL ELT процессы Data Lake курсы обучение, обучение инженеров данных, Apache AirFlow курсы обучение, озеро данных Hadoop курсы обучение, курсы Spark для разработчиков и инженеров данных обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data. Читайте далее, когда ELT лучше ETL и наоборот, чем хорош Apache Spark в конвейерах обработки Big Data, зачем нужен AirFlow,...