Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

18Мар
2023

Где лучше запустить Flink-приложение: Kubernetes vs AWS EMR

Автор Анна Вичуговав категории Flink, Блог

развертывание Flink Kubernetes AWS EMR, Apache Flink Kubernetes Amazon, Apache Flink DevOps Kubernetes, Flink Kubernetes, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, как можно развернуть контейнерные приложения Apache Flink для обработки больших объемов данных в реальном времени. В продолжение этой темы сегодня сравним развертывание Flink-заданий в Kubernetes и в кластере AWS EMR. Flink-приложение в Kubernetes: преимущества и недостатки Apache Flink — это мощный фреймворк с открытым исходным кодом для...

17Мар
2023

EDA-архитектура данных в DWH: моделирование и реализация

Автор Анна Вичуговав категории Greenplum, Блог

DWH проектирование архитектуры данных Data Lake, EDA Data Lake DWH проектирование примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем схема, применяемая к данным, при чтении отличается от схемы при записи, почему она вызывает GIGO-проблему в Data Lake, и как применить принципы функциональной дата-инженерии к архитектуре данных, управляемой событиями. Схема при чтении или при записи: главное отличие NoSQL-решений от реляционных СУБД NoSQL-решения и Apache Hadoop реализуют стратегию «схема при...

16Мар
2023

Apache HBase vs Redis: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

архитектура данных, курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня на примере Apache HBase и Redis разберемся со сходствами и отличиями NoSQL-СУБД типа «семейство колонок» и «ключ-значение». Что между ними общего и что выбирать для практического использования в зависимости от сценариев применения. 3 типа NoSQL-хранилищ данных Apache HBase и Redis являются довольно популярными базами данных среди NoSQL-решений. Однако, они...

15Мар
2023

Планирование заданий Spark в EDA-архитектуре

Автор Анна Вичуговав категории Kafka, Spark, Блог

EDA event driven architecture Spark job scheduling, архитектура ПО, архитектура больших данных, Spark для разработчиков и архитекторов, Apache Spark для дата-инженеров, микросервисная архитектура EDA, Школа Больших Данных Учебный Центр Коммерсант

Как организовать эффективное планирование заданий Apache Spark в микросервисной архитектуре, управляемой событиями, с помощью паттернов Idempotent Consumer и Transactional Outbox. Проблемы оркестрации Spark-заданий shell-скриптами и переход к EDA-архитектуре При большом количестве приложений Apache Spark, которые взаимодействуют друг с другом как самостоятельные микросервисы, растет сложность управления ими. В частности, shell-скрипты позволяют...

14Мар
2023

Метрики приложений Kafka Streams и средства их мониторинга

Автор Анна Вичуговав категории Kafka, Блог

мониторинг приложения Apache Kafka Streams примеры инструментов, обучение Kafka Streams, курсы Apache Kafka Streams, Kafka Streams отладка и разработка приложений курсы, мониторинг приложений Kafka, метрики Kafka Streams, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как использовать один и тот же топик Kafka для источника и назначения данных, обеспечивая высокую пропускную способность и низкую задержку приложений Kafka Streams. А также рассмотрим, какие встроенные метрики приложений есть у Kafka Streams, как добавить свои собственные и с помощью каких инструментов их отслеживать в реальном времени. Топики и...

10Мар
2023

Обработка геоданных в Greenplum с PostGIS

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum PostGIS примеры курсы обучение, обработка геопространственных данных в Greenplum и PostgreSQL PostGIS, обучение Greenplum PostGIS, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков ГИС-систем, Greenplum PostGIS геоинформационные системы, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Сегодня познакомимся с расширением PostGIS, которое позволяет PostgreSQL и Greenplum обрабатывать пространственные данные в геолокационных и логистических задачах. Как оно устроено и каковы ограничения его практического использования в MPP-СУБД. Что такое PostGIS и как это работает Как и PostgreSQL, Greenplum поддерживает геометрические типы данных, с помощью которых можно строить статичные...

08Мар
2023

Flink + dbt: разбор адаптера для SQL-конвейеров от GetInData

Автор Анна Вичуговав категории Flink, Блог

Flink SQL примеры курсы обучение, потоковая обработка событий в Flink приложениях, dbt Apache Flink адаптер примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про использование AirFlow для оркестрации dbt-конвейеров. Сегодня познакомимся с адаптером dbt-flink, который позволяет запускать SQL-конвейеры в проекте dbt на Apache Flink. Зачем нужен адаптер dbt к Apache Flink и как он работает В аналитике данных огромную роль играет эффективный, стабильный и надежный ETL-процесс, реализовать который можно с...

07Мар
2023

Elasticsearch + Delta Lake: архитектура данных биотех-платформы Polly

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных дата-инженер примеры курсы обучение, курсы Delta Lake Spark NoSQL, курсы по NoSQL базы данных архитектура данных примеры курсы обучение кейсы, обучение NoSQL, курсы дата-инженер, обучение Big Data для разработчиков, NoSQL Delta Lake для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Зачем биотехнологической платформе Polly от Elucidata понадобился API SQL-запросов в облачном сервисе Elasticsearch и как дата-инженеры реализовали его, развернув Delta Lake с AWS Atnena и S3. Что не так с SQL-запросами в облачном Elasticsearch на AWS Ежедневно биотехнологическая платформа Polly от Elucidata обрабатывает гигабайты биомолекулярных данных для биологов по всему...

06Мар
2023

Преимущества Apache HBase для метода ближайших соседей

Автор Анна Вичуговав категории HBase, Machine Learning, Блог

метод ближайших соседей машинное обучение, knn machine learning nosql HBase, обучение Data Science примеры курсы обучение, NoSQL HBase Hadoop, SQL-on_Hadoop примеры курсы обучение, HBase HDFS SQL Hadoop примеры курсы обучение, администратор дата-инженер Hadoop Hbase примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Метод ближайших соседей активно используется в машинном обучении для решения задач классификации в различных бизнес-приложениях. Познакомимся поближе с этим алгоритмом Machine Learning, а также разберем, почему NoSQL-хранилище Apache HBase отлично подходит для работы с ним. Что такое метод ближайших соседей: ликбез по Machine Learning В проектах Machine Learning и приложениях...

05Мар
2023

Бесплатный помощник по настройке приложений Apache Spark от Joom

Автор Анна Вичуговав категории Spark, Блог

мониторинг и оптимизация Spark-приложений примеры курсы обучение инструменты, отладка производительности Apache Spark, Spark GUI, Spark SQL для разработчиков и дата-инженеров, проблемы Spark-приложений и методы их решения, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров и разработчиков распределенных приложений еще более полезными, сегодня мы расскажем про новый бесплатный сервис от маркетплейса Joom для поиска проблем с производительностью Spark-заданий. Разбираемся, как он работает и чем полезен дата-инженеру. 4 главных проблемы Spark-приложений, их последствия и трудности обнаружения Если количество Spark-приложений невелико,...