Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

22Окт
2021

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum, курсы Greenplum, Greenplum для инженеров данных, администрирование Greenplum, Greenplum развертывание в облаке, Greenplum примеры внедрения, Arenadata DB курсы примеры обучение внедрение облачное развертывание, Школа Больших Данных Учебный центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной версией этой MPP-СУБД. Что такое VMware Tanzu Greenplum и чем это отличается от open-source версии Напомним, в 2020 году корпорация...

21Окт
2021

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Hadoop Spark YARN обучение примеры, курсы Spark SQL обучение, Apache Livy Spark примеры кейсы обучение курсы, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили заменить HiveServer2 на Spark Thrift JDBC/ODBC, зачем понадобилось писать собственный клиент поверх Apache Livy и как это было сделано. Зачем...

20Окт
2021

Пакетная обработка событий с Apache Kafka: прикладная дата-инженерия

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Хотя Apache Kafka стала стандартом де-факто для потоковой передачи событий, на этой платформе можно реализовать и пакетный режим вычислений. В рамках обучения дата-инженеров, сегодня рассмотрим, как совместить пакетную парадигму обработки Big Data с потоковой, развернув конвейер аналитики больших данных на Apache Kafka. Пакеты и потоки: versus или вместе Пакетную и потоковую...

19Окт
2021

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Iceberg NoSQL SQL-on-Hadoop Data Lake, Обучение дата-инженеров, озеро данных курсы ИТ-архитекторов Big Data обучение инженеров данных, обучение большим данным, курсы по большим данным озеро данных примеры обучение, Data Lake курсы Hadoop HDFS примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных. Он добавляет высокопроизводительные SQL-подобные таблицы в вычислительные механизмы Spark, Trino, Presto, Flink и Hive. Сегодня рассмотрим подробнее, что такое Apache Iceberg и...

18Окт
2021

Графовые СУБД vs реляционные: основы Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Блог

графовая аналитика больших данных, аналитика Big Data на графах, Spark GraphFrames Spark GraphX, Neo4j Cypher example, Spark GraphFrames Spark GraphX, Neo4j Cypher обучение пример курсы, аналитика больших данных на графах курсы обучение пример, Школа Больших Данных Учебный центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим ключевые отличия графовых СУБД от реляционных, а также познакомимся с основами Neo4j и ее языком запросов - Cypher. Также вас ждет практический пример построения несложного графа средствами Cypher. Когда графовые СУБД лучше реляционных и почему Несмотря на...

17Окт
2021

Как графовая аналитика спасает ваши деньги: пара реальных кейсов

Автор Артем Климовв категории Use Cases, Блог

Сегодня рассмотрим, как методы графовой аналитики больших данных помогают бороться с эпидемией финансовых мошенничеств: выявлять номера злоумышленников, идентифицировать фрод-транзакции, выявлять и предотвращать схемы отмывания денег. Читайте далее, что под капотом AML-систем и как инструменты Data Science предотвращают злоупотребление методами социальной инженерии. Немного истории: что такое социальная инженерия и чем это...

16Окт
2021

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Kafka Spark Flink Redpanda пример курсы обучение, Kafka Redpanda, Flink SQL Spark обучение курсы примеры, обучение Kafka, курсы Apache Kafka, обучение Spark, курсы Apache Spark, обучение Flink, курсы Apache Flink, Kafka для дата-инженеров и разработчиков примеры обучение курс, тренинги по Apache Kafka Spark Flink SQL, обучение Kafka Redpanda примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka, Школа Больших Данных Учебный центр Коммерсант

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их визуализации в Kibana. Читайте далее, чем Redpanda отличается от Kafka, а Flink – от Apache Spark с точки зрения потоковой...

15Окт
2021

Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков Spark-приложений, аналитиков данных и дата-инженеров, сегодня рассмотрим, как улучшить и визуализировать понимание обработки данных в этом Big Data фреймворке. Читайте далее про API встроенных механизмов наблюдения за качеством данных в Apache Spark и открытые библиотеки профилирования на примере Deequ. 2 уровня абстракции мониторинга Spark-приложений для дата-инженера...

14Окт
2021

5 проблем Apache Kafka и как Redpanda их решает

Автор Анна Вичуговав категории Kafka, Блог

Kafka проблемы и альтернативы, Kafka RabbitMQ Pulsar Redpanda, Redpanda, обучение Kafka, курсы Apache Kafka, Kafka для администраторов дата-инженеров и разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Redpanda примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Kafka является фреймворком №1 в потоковой обработке Big Data, эта распределенная платформа передачи событий имеет специфические недостатки и ограничения, которые затрудняют ее использование в некоторых сценариях. Сегодня рассмотрим, что именно в Apache Kafka усложняет жизнь администраторам, разработчикам и дата-инженерам, а также как Redpanda решает эти проблемы....

12Окт
2021

Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark Structured Streaming курсы обучениеб Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark Structured Streaminng window session пример, сеансовые окна Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Анализ данных в рамках пользовательский сеансов (сессий) – довольно востребованный кейс в Apache Spark, который не так просто реализовать из-за особенностей потоковой и пакетной обработки, а также эксплуатационных расходов. Сегодня рассмотрим, как работают сеансовые окна Spark Structured Streaming и каковы ограничения этого фреймворка. Что такое сеансовые окна: краткий ликбез по...

11Окт
2021

Повышаем параллелизм и пропускную способность потоковых приложений с Apache Kafka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka Streams для разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Streams Akka Streams примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka и Akka Streams, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Kafka рассмотрим пример масштабирования потоковой обработки событий с Akka Streams. Читайте далее, что не так с параллелизмом при одновременном выполнении событий на запись, как Akka Streams решает эту проблему и при чем здесь Apache Kafka. Проблемы масштабирования потоковой обработки в Kafka Streams Масштабная потоковая...

10Окт
2021

Как графовая аналитика спасла мир: Data Science vs COVID-19

Автор Артем Климовв категории Use Cases, Блог

На протяжении всей истории человечества пандемии являлись причинами глобальных макроэкономических изменений. Например, эпидемия чумы привела к окончательному падению монгольской империи, изменив баланс сил между мусульманским и европейским миром в пользу последнего. А эпидемия испанки, разразившаяся в конце первой мировой войны, привела к окончательной капитуляции Германии. Последняя пандемия COVID-19 изменила мир...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

08Окт
2021

Графовая аналитика больших данных с Apache Spark GraphX: что такое Pregel

Автор Анна Вичуговав категории Блог

Pregel, Spark GraphX курсы примеры обучение, Spark GraphX Pregel, Spark GraphX pregel курсы обучение примеры, аналитика больших данных на графах примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках продвижения нашего нового курса по графовым алгоритмам на больших данных, сегодня разберем, что такое Pregel, и как API этой платформы реализован в Apache Spark GraphX. Читайте далее, как из RDD вершин и ребер образуется триплет, а также какие механизмы отвечают за отказоустойчивость графовой аналитики больших данных. Что такое...

07Окт
2021

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Анна Вичуговав категории Kafka, Блог

компьютерное зрение, распознавание лиц примеры обучение курсы, видеоаналитика примеры, конвейер обработки видео в реальном времени, обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей, IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как интегрировать алгоритмы машинного/глубокого обучения в систему видеоаналитики реального времени. Потоковая видеоаналитика: прием мультимедиа в реальном времени Видеоаналитика – одно из...

05Окт
2021

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Анна Вичуговав категории Spark, Блог

аналитика больших данных примеры кейсы курсы обучение, курсы Apache Spark SQL, обучение Spark SQL Google BigQuery, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось лучше выполнения Spark-заданий в кластере DataProc с использованием данных BigQuery и облачного хранилища Google (GCS, Google Cloud Storage) для потоковой...

04Окт
2021

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных для руководителей пример курсы обучение, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с изображениями в реальном времени, а китайский ритейл-гигант Alibaba Group успешно обрабатывал 7 ТБ в секунду во время глобального дня шопинга....

02Окт
2021

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Анна Вичуговав категории Spark, Блог

Spark GraphX курсы примеры обучение, Spark GraphX и GraphFrame, Spark GraphX vs GraphFrame, аналитика больших данных на графах примеры курсы обучение

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю GraphX в Apache Spark и его отличия от API GraphFrames, а также особенности кластерной обработки и сохранения данных графа свойств....

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

30Сен
2021

Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum настройка конфигурирование администрирование курсы обучение, лучшие практики администрирования Greenplum, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим пару полезных лайфхаков, как избежать избыточного потребления памяти, настроив конфигурационные параметры операционной системы хоста. Читайте далее, почему не стоит задавать слишком большой размер страниц виртуальной памяти, зачем администратору контролировать количество spill-файлов и как в этом помогает утилита gp_toolkit. Операционная система...