Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

05Окт
2021

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Анна Вичуговав категории Spark, Блог

аналитика больших данных примеры кейсы курсы обучение, курсы Apache Spark SQL, обучение Spark SQL Google BigQuery, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось лучше выполнения Spark-заданий в кластере DataProc с использованием данных BigQuery и облачного хранилища Google (GCS, Google Cloud Storage) для потоковой...

04Окт
2021

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных для руководителей пример курсы обучение, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с изображениями в реальном времени, а китайский ритейл-гигант Alibaba Group успешно обрабатывал 7 ТБ в секунду во время глобального дня шопинга....

02Окт
2021

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Анна Вичуговав категории Spark, Блог

Spark GraphX курсы примеры обучение, Spark GraphX и GraphFrame, Spark GraphX vs GraphFrame, аналитика больших данных на графах примеры курсы обучение

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю GraphX в Apache Spark и его отличия от API GraphFrames, а также особенности кластерной обработки и сохранения данных графа свойств....

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

30Сен
2021

Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum настройка конфигурирование администрирование курсы обучение, лучшие практики администрирования Greenplum, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим пару полезных лайфхаков, как избежать избыточного потребления памяти, настроив конфигурационные параметры операционной системы хоста. Читайте далее, почему не стоит задавать слишком большой размер страниц виртуальной памяти, зачем администратору контролировать количество spill-файлов и как в этом помогает утилита gp_toolkit. Операционная система...

29Сен
2021

FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Автор Анна Вичуговав категории Kafka, Блог

администрирование Kafka-кластера, мониторинг состояния Apache Kafka, администратор кластера Apache Kafka курсы обучение, Apache Kafka курсы обучение администраторов и дата-инженеров, мониторинг кластера Apache Kafka инструменты примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про KafkaJS – клиент Apache Kafka для Node.js, который отличается небольшим размером и простым развертыванием с удобным API. Сегодня рассмотрим еще пару полезных инструментов визуализации данных о Kafka-кластере на базе KafkaJS и Prometheus. Читайте далее, что такое FlowKat и Monokl, а также зачем они нужны дата-инженеру, разработчику...

28Сен
2021

Правила оптимизации в Spark SQL и их улучшения в Radiant

Автор Анна Вичуговав категории Spark, Блог

Spark SQL обучение курсы, обучение разработчиков Спарк, разработка Apache Spark SQL обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, Spark SQL Catalyst, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-аналитиков рассмотрим новый оптимизатор этого фреймворка, Radiant. Он основан на SQL-оптимизаторе Catalyst и представляет собой open-source проект от энтузиастов сообщества Apache Spark. Читайте далее, чем хорош Spark-Radiant и как использовать его для оптимизации SQL-запросов при аналитике больших данных. Что такое SQL-оптимизатор Spark-Radiant и...

24Сен
2021

Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js

Автор Анна Вичуговав категории Kafka, Блог

KafkaJS, обучение Kafka, курсы Kafka, Apache Kafka для разработчиков, Apache Kafka KafkaJS примеры, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое KafkaJS, как это связано с Apache Kafka и JavaScript, в чем преимущества этой технологии и как разработчику распределенных приложений потоковой аналитики больших данных использовать ее на практике. Также вас ждет краткий ликбез по Node.js и примеры разработки KafkaJS-приложения. Краткий ликбез по Node.js Важными достоинствами архитектуры потоковой передачи...

22Сен
2021

3 совета администратору Greenplum: лучшие практики настройки кластера

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Хотя наши практические курсы по Greenplum и Arenadata DB больше ориентированы на аналитиков и дата-инженеров, чем на администраторов, в программы обучения также включены важные сведения по настройке этих MPP-СУБД. В этой статье мы собрали лучшие практики системного конфигурирования кластера Greenplum, которые помогут повысить эффективность аналитики больших данных в этой Big...

21Сен
2021

Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных в контекстной рекламе пример, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков событий - показов и кликов, чтобы вычислить конверсию рекламной кампании средствами Apache Flink или Spark. Потоки Big Data за фасадом...