Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

07Апр
2023

7 критериев выбора потоковой базы данных

Автор Анна Вичуговав категории NoSql, Блог, Цифровая трансформация

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, СУБД NoSQL потоковая передача, NoSQL курсы примеры обучение, event streaming курсы примеры обучение, архитектура данных курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковая аналитика больших данных, какие бывают СУБД потоковой передачи, когда и зачем их использовать, а также что влияет на выбор этих инструментов хранения и аналитической обработки Big Data. Что такое потоковые базы данных и как они работают Мы уже упоминали, что аналитика данных в реальном времени может быть...

06Апр
2023

Python для Greenplum: обработка миллионов строк внутри БД с новой библиотекой

Автор Анна Вичуговав категории Greenplum, Блог

GreenplumPython Greenplum Python примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Python курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чего не хватает в PL/Python и зачем нужна еще одна библиотека для создания Python-скриптов обработки данных в Greenplum. Возможности API GreenplumPython и сравнение с pandas. Что такое PL/Python и как это работает в Greenplum Мы уже писали, что Greenplum изначально поддерживает Python, предоставляя PL/Python – загружаемый процедурный язык, который позволяет...

05Апр
2023

Возможности и ограничения Dataset API в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark SQL, Spark SQL Dataset API для разработчика примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В Apache Spark есть 3 структуры данных, каждая из которых имеет собственный API со своими достоинствами и недостатками. Сегодня разберем плюсы и минусы Dataset API, а также рассмотрим особенности JOIN-операций в нем. Почему Dataset API в Apache Spark работает только со Scala и Java Напомним, структура данных Dataset впервые появилась...

01Апр
2023

Работа с диском в резидентных СУБД на примере Memgraph и Redis

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных, курсы NoSQL HBase Redis Memgraph Neo4j примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про резидентную графовую СУБД Memgraph, которая хранит данные в оперативной памяти. Сегодня рассмотрим, как выгрузить граф знаний из Memgraph на диск с помощью библиотеки GQLAlchemy, а также поговорим про персистентность другого популярного NoSQL-хранилища Redis, которое также является резидентным, но относится к семейству key-value. Как сохранить данные из...

30Мар
2023

Распределенные снапсшоты в Greenplum для производительности и надежности

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum MVCC распределенные транзакции, архитектура данных Greenplum, резервное копирование Greenplum, ACID в распределенных транзакциях Greenplum , Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Как Greenplum расширяет MVCC-модель PostgreSQL для управления доступом к данным в многопользовательской среде, обеспечивая согласованность и изоляцию транзакций для нескольких сегментов в большом кластере. Преимущества моментальных снимков перед блокировками и их польза для резервного копирования. MVCC и транзакции в Greenplum с PostgreSQL Будучи основанной на PostgreSQL, о чем мы писали здесь,...

28Мар
2023

Мартовский выпуск Apache Flink: обзор релиза 1.17.0

Автор Анна Вичуговав категории Flink, Блог

Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

23 марта 2023 года вышел очередной релиз Apache Flink. Разбираемся с главными новинками выпуска 1.17.0: полезные фичи, исправленные ошибки и улучшения для дата-инженера и разработчика распределенных приложений. Новинки пакетной обработки В Apache Flink 1.17 внесено множество изменений в области пакетной и потоковой обработки. В частности, добавлен новый пакетный Streaming Warehouse...

27Мар
2023

Унификация пакетной и потоковой обработки в Delta-архитектуре с LakeHouse

Автор Анна Вичуговав категории NoSql, Spark, Блог

DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как Lakehouse объединяет пакетную и потоковую обработку, какие проблемы возникают при реализации этой гибридной архитектуры данных и каким образом они решаются с помощью Delta-подхода и Apache Spark Structured Streaming. Краткая история появления дельта-архитектуры от лямбда- и каппа-моделей Мир больших данных постоянно развивается: появляются новые технологии и архитектурные шаблоны. В частности,...

21Мар
2023

Что такое Memgraph и чем она отличается от Neo4j: сравнение графовых СУБД

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j vs Memgraph, сравнение Neo4j с Memgraph, NoSQL СУБД, графы базы данных примеры курсы обучение, графы Data Science примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях сегодня познакомимся с графовой резидентной СУБД Memgraph и сравним ее с Neo4j, определив достоинства, недостатки и варианты использования в задачах аналитики больших данных. Memgraph vs Neo4j Memgraph — это высокопроизводительная графовая СУБД с открытым исходным кодом, которая хранит и...

20Мар
2023

Графовая аналитика в Greenplum и PostgreSQL: обзор расширений и возможностей

Автор Анна Вичуговав категории Greenplum, Блог

графовые алгоритмы на больших данных в Greenplum примеры курсы обучение, Greenplum графы примеры курсы обучение, обработка графовых данных в Greenplum и PostgreSQL графы, обучение Greenplum Madlib, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, Greenplum MADlib Data Science, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Инструменты графовых алгоритмов для аналитики больших данных в PostgreSQL и Greenplum: обзор расширений и возможностей. Знакомимся с Apache AGE и MADlib. Графовая аналитика в PostgreSQL Реляционные СУБД отлично подходят для хранения данных с четкой структурой практически в любой предметной области и предлагают широкие возможности аналитической обработки таких данных. Но иногда реляционная...

17Мар
2023

EDA-архитектура данных в DWH: моделирование и реализация

Автор Анна Вичуговав категории Greenplum, Блог

DWH проектирование архитектуры данных Data Lake, EDA Data Lake DWH проектирование примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем схема, применяемая к данным, при чтении отличается от схемы при записи, почему она вызывает GIGO-проблему в Data Lake, и как применить принципы функциональной дата-инженерии к архитектуре данных, управляемой событиями. Схема при чтении или при записи: главное отличие NoSQL-решений от реляционных СУБД NoSQL-решения и Apache Hadoop реализуют стратегию «схема при...

15Мар
2023

Планирование заданий Spark в EDA-архитектуре

Автор Анна Вичуговав категории Kafka, Spark, Блог

EDA event driven architecture Spark job scheduling, архитектура ПО, архитектура больших данных, Spark для разработчиков и архитекторов, Apache Spark для дата-инженеров, микросервисная архитектура EDA, Школа Больших Данных Учебный Центр Коммерсант

Как организовать эффективное планирование заданий Apache Spark в микросервисной архитектуре, управляемой событиями, с помощью паттернов Idempotent Consumer и Transactional Outbox. Проблемы оркестрации Spark-заданий shell-скриптами и переход к EDA-архитектуре При большом количестве приложений Apache Spark, которые взаимодействуют друг с другом как самостоятельные микросервисы, растет сложность управления ими. В частности, shell-скрипты позволяют...

11Мар
2023

Neo4j vs TigerGraph: сравнение графовых СУБД

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j vs TigerGraph, сравнение Neo4j с TigerGraph, NoSQL СУБД, графы базы данных примеры курсы обучение, графы Data Science примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Neo4j с TigerGraph и чем они отличаются: разбираемся с популярными графовыми СУБД и их возможностями для аналитики больших данных в рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях. Сравнение Neo4j с TigerGraph Подробно об архитектуре, принципах работы, функциональных возможностях и вариантах использования TigerGraph мы писали...

10Мар
2023

Обработка геоданных в Greenplum с PostGIS

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum PostGIS примеры курсы обучение, обработка геопространственных данных в Greenplum и PostgreSQL PostGIS, обучение Greenplum PostGIS, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков ГИС-систем, Greenplum PostGIS геоинформационные системы, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Сегодня познакомимся с расширением PostGIS, которое позволяет PostgreSQL и Greenplum обрабатывать пространственные данные в геолокационных и логистических задачах. Как оно устроено и каковы ограничения его практического использования в MPP-СУБД. Что такое PostGIS и как это работает Как и PostgreSQL, Greenplum поддерживает геометрические типы данных, с помощью которых можно строить статичные...

08Мар
2023

Flink + dbt: разбор адаптера для SQL-конвейеров от GetInData

Автор Анна Вичуговав категории Flink, Блог

Flink SQL примеры курсы обучение, потоковая обработка событий в Flink приложениях, dbt Apache Flink адаптер примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про использование AirFlow для оркестрации dbt-конвейеров. Сегодня познакомимся с адаптером dbt-flink, который позволяет запускать SQL-конвейеры в проекте dbt на Apache Flink. Зачем нужен адаптер dbt к Apache Flink и как он работает В аналитике данных огромную роль играет эффективный, стабильный и надежный ETL-процесс, реализовать который можно с...

07Мар
2023

Elasticsearch + Delta Lake: архитектура данных биотех-платформы Polly

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных дата-инженер примеры курсы обучение, курсы Delta Lake Spark NoSQL, курсы по NoSQL базы данных архитектура данных примеры курсы обучение кейсы, обучение NoSQL, курсы дата-инженер, обучение Big Data для разработчиков, NoSQL Delta Lake для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Зачем биотехнологической платформе Polly от Elucidata понадобился API SQL-запросов в облачном сервисе Elasticsearch и как дата-инженеры реализовали его, развернув Delta Lake с AWS Atnena и S3. Что не так с SQL-запросами в облачном Elasticsearch на AWS Ежедневно биотехнологическая платформа Polly от Elucidata обрабатывает гигабайты биомолекулярных данных для биологов по всему...

05Мар
2023

Бесплатный помощник по настройке приложений Apache Spark от Joom

Автор Анна Вичуговав категории Spark, Блог

мониторинг и оптимизация Spark-приложений примеры курсы обучение инструменты, отладка производительности Apache Spark, Spark GUI, Spark SQL для разработчиков и дата-инженеров, проблемы Spark-приложений и методы их решения, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров и разработчиков распределенных приложений еще более полезными, сегодня мы расскажем про новый бесплатный сервис от маркетплейса Joom для поиска проблем с производительностью Spark-заданий. Разбираемся, как он работает и чем полезен дата-инженеру. 4 главных проблемы Spark-приложений, их последствия и трудности обнаружения Если количество Spark-приложений невелико,...

03Мар
2023

Зачем и как совмещать dbt с Apache AirFlow?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow и dbt инженеров данных, dbt примеры курсы обучение, AirFlow примеры курсы обучение инженерия данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache AirFlow курсы, Data Build tool AirFlow, Школа Больших Данных Учебный центр Коммерсант

Что такое dbt, чем полезен этот инструмент для анализа и инженерии данных, зачем переносить в него бизнес-логику обработки данных и представлять эти задачи в DAG-конвейере Apache AirFlow. Python и SQL для анализа данных и дата-инженерии: versus или вместе? Распил крупных монолитных систем на множество автономных взаимодействующих друг с другом приложений...

01Мар
2023

Ищем кратчайший путь с Cypher-запросами в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Cypher Neo4j кратчайший путь пример граф, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, алгоритм Дейкстры Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях, решим классическую задачу логистики в графовой базе данных Neo4j без использования методов ее специальной библиотеки Graph Data Science, а средствами Cypher-запросов. Постановка задачи: критерии оценки для поиска кратчайшего пути Поиск кратчайшего пути – это классическая задача на графах,...

28Фев
2023

Распределенные транзакции в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum распределенные транзакции уровни изоляции ACID, архитектура данных, ACID в распределенных транзакциях, Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про трудности реализации ACID-требований к транзакциям в распределенных базах данных и способах их решения. Сегодня рассмотрим, как это работает в Greenplum с Arenadata DB: уровни изоляции, идентификаторы транзакций, моментальные снимки и MVCC-модель управления параллелизмом. Как GP и Arenadata DB реализуют распределенные транзакции Будучи основанной на PostgreSQL, Greenplum...

25Фев
2023

Колоночные и строковые: виды хранения данных в СУБД

Автор Анна Вичуговав категории Greenplum, HBase, Блог

колоночные и строковые базы данных с примерами, архитектура данных примеры курсы обучение, хранение больших данных, реляционные и NoSQL базы данных примеры курсы обучение отличие, инженерия данных, архитектура данных, Школа Больших Данных Учебный Центр Коммерсант

Как данные хранятся на диске при разной ориентации хранилища в СУБД: чем отличаются колоночные базы от строковых с точки зрения практического использования в дата-инженерии. Сравнительная таблица с примерами и выводами. Как данные хранятся на диске и при чем здесь ориентация СУБД Способы хранения данных в СУБД можно разделить на 2...