Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

12Окт
2021

Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark Structured Streaming курсы обучениеб Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark Structured Streaminng window session пример, сеансовые окна Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Анализ данных в рамках пользовательский сеансов (сессий) – довольно востребованный кейс в Apache Spark, который не так просто реализовать из-за особенностей потоковой и пакетной обработки, а также эксплуатационных расходов. Сегодня рассмотрим, как работают сеансовые окна Spark Structured Streaming и каковы ограничения этого фреймворка. Что такое сеансовые окна: краткий ликбез по...

11Окт
2021

Повышаем параллелизм и пропускную способность потоковых приложений с Apache Kafka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka Streams для разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Streams Akka Streams примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka и Akka Streams, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Kafka рассмотрим пример масштабирования потоковой обработки событий с Akka Streams. Читайте далее, что не так с параллелизмом при одновременном выполнении событий на запись, как Akka Streams решает эту проблему и при чем здесь Apache Kafka. Проблемы масштабирования потоковой обработки в Kafka Streams Масштабная потоковая...

10Окт
2021

Как графовая аналитика спасла мир: Data Science vs COVID-19

Автор administratorв категории Use Cases, Блог

На протяжении всей истории человечества пандемии являлись причинами глобальных макроэкономических изменений. Например, эпидемия чумы привела к окончательному падению монгольской империи, изменив баланс сил между мусульманским и европейским миром в пользу последнего. А эпидемия испанки, разразившаяся в конце первой мировой войны, привела к окончательной капитуляции Германии. Последняя пандемия COVID-19 изменила мир...

10Окт
2021

Что такое индекс и почему его использование так важно при работе в Hive

Автор administratorв категории Hive, NoSql, Блог

курсы по apache phoenix, курсы по nosql, курсы по sparksql, курсы по greenplum, big data курсы москва, курсы администраторов spark, курс администраторов greenplum, курсы для инженеров данных, курс hbase

В прошлый раз мы говорили про драйвер JDBC и его использование в Hive. Сегодня поговорим про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Читайте далее про особенности работы с индексами в распределенной среде Big Data СУБД Hive. Какую роль играет использование индекса при обработке Big...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

08Окт
2021

Графовая аналитика больших данных с Apache Spark GraphX: что такое Pregel

Автор Анна Вичуговав категории Блог

Pregel, Spark GraphX курсы примеры обучение, Spark GraphX Pregel, Spark GraphX pregel курсы обучение примеры, аналитика больших данных на графах примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках продвижения нашего нового курса по графовым алгоритмам на больших данных, сегодня разберем, что такое Pregel, и как API этой платформы реализован в Apache Spark GraphX. Читайте далее, как из RDD вершин и ребер образуется триплет, а также какие механизмы отвечают за отказоустойчивость графовой аналитики больших данных. Что такое...

07Окт
2021

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Анна Вичуговав категории Kafka, Блог

компьютерное зрение, распознавание лиц примеры обучение курсы, видеоаналитика примеры, конвейер обработки видео в реальном времени, обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей, IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как интегрировать алгоритмы машинного/глубокого обучения в систему видеоаналитики реального времени. Потоковая видеоаналитика: прием мультимедиа в реальном времени Видеоаналитика – одно из...

06Окт
2021

Детектирование устройств с WURFL: потоковый конвейер в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

курсы NiFI, NiFi для инженеров данных, обучение дата-инженеров Apache NiFi примеры, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache NiFi для дата-инженеров и администраторов, сегодня рассмотрим, как как обогатить поток данных, сделав информацию об устройстве доступной для систем, которые хранят или потребляют данные в следующих этапах конвейера. Также разберем, зачем нужна технология детектирования устройств, что такое WURFL и как это реализовать в Apache NiFi....

05Окт
2021

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Анна Вичуговав категории Spark, Блог

аналитика больших данных примеры кейсы курсы обучение, курсы Apache Spark SQL, обучение Spark SQL Google BigQuery, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось лучше выполнения Spark-заданий в кластере DataProc с использованием данных BigQuery и облачного хранилища Google (GCS, Google Cloud Storage) для потоковой...

04Окт
2021

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных для руководителей пример курсы обучение, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с изображениями в реальном времени, а китайский ритейл-гигант Alibaba Group успешно обрабатывал 7 ТБ в секунду во время глобального дня шопинга....

02Окт
2021

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Анна Вичуговав категории Spark, Блог

Spark GraphX курсы примеры обучение, Spark GraphX и GraphFrame, Spark GraphX vs GraphFrame, аналитика больших данных на графах примеры курсы обучение

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю GraphX в Apache Spark и его отличия от API GraphFrames, а также особенности кластерной обработки и сохранения данных графа свойств....

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

30Сен
2021

Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum настройка конфигурирование администрирование курсы обучение, лучшие практики администрирования Greenplum, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим пару полезных лайфхаков, как избежать избыточного потребления памяти, настроив конфигурационные параметры операционной системы хоста. Читайте далее, почему не стоит задавать слишком большой размер страниц виртуальной памяти, зачем администратору контролировать количество spill-файлов и как в этом помогает утилита gp_toolkit. Операционная система...

29Сен
2021

FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Автор Анна Вичуговав категории Kafka, Блог

администрирование Kafka-кластера, мониторинг состояния Apache Kafka, администратор кластера Apache Kafka курсы обучение, Apache Kafka курсы обучение администраторов и дата-инженеров, мониторинг кластера Apache Kafka инструменты примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про KafkaJS – клиент Apache Kafka для Node.js, который отличается небольшим размером и простым развертыванием с удобным API. Сегодня рассмотрим еще пару полезных инструментов визуализации данных о Kafka-кластере на базе KafkaJS и Prometheus. Читайте далее, что такое FlowKat и Monokl, а также зачем они нужны дата-инженеру, разработчику...

28Сен
2021

Правила оптимизации в Spark SQL и их улучшения в Radiant

Автор Анна Вичуговав категории Spark, Блог

Spark SQL обучение курсы, обучение разработчиков Спарк, разработка Apache Spark SQL обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, Spark SQL Catalyst, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-аналитиков рассмотрим новый оптимизатор этого фреймворка, Radiant. Он основан на SQL-оптимизаторе Catalyst и представляет собой open-source проект от энтузиастов сообщества Apache Spark. Читайте далее, чем хорош Spark-Radiant и как использовать его для оптимизации SQL-запросов при аналитике больших данных. Что такое SQL-оптимизатор Spark-Radiant и...

27Сен
2021

ТОП-10 практик разработки и развертывания Data Flow в Apache NiFi от Cloudera

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi Cloudera DataFlow лучшие практики обучение курсы, обучение Apache NiFi для дата-инженеров и администраторов, Cloudera NiFi курсы обучение, обучение дата-инженеров и администраторов кластеров Big Data, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения дата-инженеров сегодня заглянем под капот системы Cloudera Flow Management, которая является частью платформы Cloudera DataFlow и основана на Apache NiFi. Вас ждет разбор основных концепций жизненного цикла потоковой разработки и их реализация в Apache NiFi с практическими примерами и рекомендациями по применению. Что такое Cloudera Flow Management...

26Сен
2021

Запуск зависимых графов Apache Airflow

Автор administratorв категории AirFlow, Блог

Когда имеются графы (dags), зависимые от других, то лучше всего объединить их в один или использовать TaskGroup, о котором говорили в прошлой статье. Но если по каким-то причинам сделать это не удается, то Apache Airflow предоставляет различные способы запуска графа внутри другого. Одним из таких является TriggerDagRunOperator. В этой статье...

24Сен
2021

Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js

Автор Анна Вичуговав категории Kafka, Блог

KafkaJS, обучение Kafka, курсы Kafka, Apache Kafka для разработчиков, Apache Kafka KafkaJS примеры, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое KafkaJS, как это связано с Apache Kafka и JavaScript, в чем преимущества этой технологии и как разработчику распределенных приложений потоковой аналитики больших данных использовать ее на практике. Также вас ждет краткий ликбез по Node.js и примеры разработки KafkaJS-приложения. Краткий ликбез по Node.js Важными достоинствами архитектуры потоковой передачи...

23Сен
2021

Что такое Apache Hop: еще одна альтернатива AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Hop примеры, Apache Hop vs AirFlow, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Airflow сегодня считается главным инструментом дата-инженерии, он далеко не единственное средство оркестрации пакетных заданий и построения конвейеров обработки больших данных. В рамках продвижения наших курсов для инженеров Big Data, сегодня рассмотрим, что такое Apache Hop, чем это отличается от AirFlow и где использовать эту платформу, а...

22Сен
2021

3 совета администратору Greenplum: лучшие практики настройки кластера

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Хотя наши практические курсы по Greenplum и Arenadata DB больше ориентированы на аналитиков и дата-инженеров, чем на администраторов, в программы обучения также включены важные сведения по настройке этих MPP-СУБД. В этой статье мы собрали лучшие практики системного конфигурирования кластера Greenplum, которые помогут повысить эффективность аналитики больших данных в этой Big...