Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

13Май
2021

Индексируем и сжимаем: особенности хранения и аналитики Big Data в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

курсы Greenplum, обучение Greenplum, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

В продолжение вчерашней статьи по нашему новому курсу «Greenplum для инженеров данных», сегодня рассмотрим особенности индексации и сжатия данных в этой MPP-СУБД. Читайте далее, почему в Greenplum можно обойтись без индексов, когда выбирать RLE-сжатие вместо zlib, зачем сжимать рабочие файлы при выполнении SQL-запросов и что такое селективность индекса. ТОП-10 советов по...

11Май
2021

Как хранить большие данных в Greenplum: ТОП-15 рекомендаций

Автор Анна Вичуговав категории Greenplum, Блог

Продвигая наш новый курс «Greenplum для инженеров данных», сегодня мы рассмотрим особенности организации таблиц в этой MPP-СУБД, типы данных и оптимальное расположение столбцов. Читайте далее, чем heap storage отличается от append-optimized, когда выбирать колоночную, а когда – строковую модель хранения данных для таблицы, почему BIGINT с TIMESTAMP следует размещать перед...

23Ноя
2020

Комбо Apache Spark и Greenplum для быстрой аналитики больших данных: разбор интеграционного коннектора

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

курсы по Apache Spark, обучение Spark, курсы по Greenplum, обучение Greenplum, курсы по Arenadata DB, обучение Arenadata DB, курсы доя инженеров данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark, Greenplum, ETL, Arenadata, архитектура

Продолжая разговор про обучение Apache Spark для инженеров данных на практических примерах, сегодня разберем, как организовать интеграцию этого Big Data фреймворка с MPP-СУБД Greenplum. В этой статье мы расскажем о коннекторе Greenplum-Spark, который позволяет эффективно связывать эти средства работы с большими данными, выстраивая аналитический конвейер их обработки (data pipeline). Типовые...

20Ноя
2020

Как создать свой коннектор Apache Spark: пример интеграции с Tableau

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, обучение Apache Spark, Apache Spark for developres, Apache Spark integration, обработка данных, большие данные, Big Data, Spark, Data Lake, Greenplum, Python

Говоря про практическое обучение Apache Spark для дата-инженеров, сегодня рассмотрим особенности разработки собственного коннектора для этого фреймворка на примере его интеграции с BI-системой Tableau. Читайте далее, как конвертировать Spark RDD в нужный формат и сделать свой коннектор удобным для пользователей. Интеграция Spark с внешними источниками данных через коннекторы Apache Spark...

20Июл
2020

Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, Kafka, ритейл, Greenplum, Tarantol, SQL, NoSQL, AirFlow, NiFi, ETL, Data Lake, Machine Learning, машинное обучение

Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache...

27Май
2020

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Автор Анна Вичуговав категории Greenplum, Internet of Things, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не...

22Май
2020

4 крупных примера внедрения Tarantool, 3 достоинства и 2 главных недостатка IMDB

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, SQL, Tarantool, Arenadata, Greenplum, Hadoop

Сегодня рассмотрим ключевые достоинства и недостатки резидентных СУБД для больших данных на примере Tarantool. Читайте в нашей статье про основные сценарии использования In-Memory Database (IMDB) в области Big Data с конкретными кейсами из реального бизнеса от Альфа-Банка, Аэрофлота, Тинькофф-Банка и Мегафона. Где и как используются In-Memory в Big Data: 4...

20Май
2020

Arenadata Grid vs Tarantool для Big Data: сходства и различия отечественных In-Memory СУБД

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, Hadoop, SQL, Greenplum, Tarantool, Arenadata

Вчера мы разбирали In-Memory СУБД на примере Tarantool. Сегодня поговорим про Arenadata Grid: что это такое, чем хороша эта база данных, каким образом она связана с Тарантул и чем от него отличается. Также рассмотрим, как Arenadata Grid интегрируется с внешними Big Data системами, в т.ч. основными компонентами инфраструктуры Apache Hadoop...

10Май
2020

Зелено – не молодо: как устроена MPP-СУБД Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, DWH, Arenadata, Greenplum

В этом материале рассмотрим реализацию массово-параллельной архитектуры для хранения и аналитической обработки больших данных на примере популярной Big Data СУБД Greenplum. Прочитав эту статью, вы поймете, почему MPP-базы потребляют много ресурсов и как связано число сегментов со скоростью работы кластера. MPP, Greenplum и PostgreSQL Напомним, СУБД Greenplum – это типичный представитель...

07Май
2020

3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

Автор Анна Вичуговав категории Greenplum, Use Cases, Блог, Цифровая трансформация

Greenplum, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл, банк, Arenadata, Аренадата

Сегодня поговорим про достоинства и недостатки массово-параллельной архитектуры для хранения и аналитической обработки больших данных, рассмотрев Greenplum и Arenadata DB. Читайте в нашей статье, что такое MPP-СУБД, где и как это применяется, чем полезны эти Big Data решения и с какими проблемами можно столкнуться при их практическом использовании. Что MPP-СУБД...