Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

19Ноя
2021

PXF, Greenplum и оптимизация SQL-запросов к разным источникам данных

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня продолжим разбираться с интеграционным фреймворком Greenplum и рассмотрим, как PXF реализует SQL-запросы к различным OLAP и OLTP-источникам, поддерживая разные форматы данных. Зачем создавать внешнюю таблицу для Greenplum и какие параметры при этом указывать, а также чем хороша технология оптимизации pushdown. SQL и PXF: интеграция Greenplum с внешними источниками на...

10Ноя
2021

Как устроен PXF Greenplum: архитектура и принципы работы

Автор Анна Вичуговав категории Greenplum, Блог

Специально для дата-инженеров, разработчиков OLAP-конвейеров и архитекторов DWH на MPP-СУБД Greenplum и Arenadata DB сегодня рассмотрим, что представляет собой PXF, из каких компонентов он состоит и как они взаимодействуют друг с другом, чтобы обеспечить параллельный высокопроизводительный доступ к данным и объединенную обработку запросов к разнородным источникам. Что PXF и зачем...

08Ноя
2021

Как передать данные из GridDB в Apache Kafka через JDBC-коннектор

Автор Анна Вичуговав категории Kafka, Блог

GridDB Kafka Connect пример, Kafka Connect коннекторы кафка курсы обучение, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, Apache Kafka для разработчика примеры обучение курсы, Обучение Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Добавляя в наши курсы по Apache Kafka еще больше полезных кейсов, сегодня рассмотрим пример интеграции этой распределенной платформы потоковой передачи событий с масштабируемой key-value СУБД GridDB через JDBC-коннекторы Kafka Connect. Apache Kafka как источник данных: source-коннектор JDBC Apache Kafka часто используется в качестве источника или приемника данных для аналитической обработки...

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

02Ноя
2021

Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор

Автор Анна Вичуговав категории Kafka, Блог

Saamsa Kafka, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, администрирование кластера Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Kafka, сегодня рассмотрим еще один полезный инструмент для администраторов, дата-инженеров и разработчиков, который повышает эффективность взаимодействия с этой распределенной платформой потоковой обработки событий. Что такое Saamsa, какие проблемы Kafka она решает и как ее использовать на практике. 5 вопросов разработчика и дата-инженера к Apache...

01Ноя
2021

Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest

Автор Анна Вичуговав категории HBase, Use Cases, Блог

Apache HBase курсы обучение примеры, кейсы аналитики больших данных для дата-инженеров примеры. NoSQL курсы, Apache Hadoop курсы обучение для дата-инженеров примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от Lily HBase Indexer, зачем понадобился собственный аналог Solr и ElasticSearch, а также как все это работает в реальном времени с...

28Окт
2021

DataCater и Flow: еще пара альтернатив Apache Kafka для построения потоковых конвейеров

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про платформы потоковой обработки событий, альтернативные Apache Kafka и Flink/Spark Streaming. В продолжение этой темы сегодня рассмотрим еще пару вариантов для разработки и самообслуживаемого использования потоковых конвейеров аналитики больших данных: DataCater и Flow. Читайте далее, что это за системы, как они связаны с Apache Kafka и какова...

27Окт
2021

CDC-конвейер для MySQL на Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

обучение дата-инженеров, инженерия данных, дата-инженер Apache NiFi CDC MySQL курсы примеры обучение, обучение большим данным, курсы инженеров Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем типичный для современной дата-инженерии кейс построения конвейера обработки измененных данных на Apache NiFi с учетом безопасности и масштабируемости API-вызовов. Также рассмотрим, зачем использовать Apache NiFi при межсистемной интеграции через API-вызовы и как реализовать CDC-подход к изменениям в СУБД MySQL с помощью процессоров этого популярного ETL-фреймворка. CDC и интеграция...

23Окт
2021

Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Автор Анна Вичуговав категории Flink, Kafka, Блог

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Продолжая недавний разговор про потоковую передачу событий и соответствующие Big Data инструменты, сегодня рассмотрим не отдельные фреймворки обработки данных в режиме реального времени, а комплексные платформы, которые объединяют сразу несколько технологий для интерактивной аналитики больших данных. Вас ждет краткий обзор Cloudera Streaming Analytics, Materialize и Rockset: что это такое, как...

22Окт
2021

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum, курсы Greenplum, Greenplum для инженеров данных, администрирование Greenplum, Greenplum развертывание в облаке, Greenplum примеры внедрения, Arenadata DB курсы примеры обучение внедрение облачное развертывание, Школа Больших Данных Учебный центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной версией этой MPP-СУБД. Что такое VMware Tanzu Greenplum и чем это отличается от open-source версии Напомним, в 2020 году корпорация...