Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

16Апр
2023

4 способа попробовать Neo4j: сравнение альтернатив

Автор Анна Вичуговав категории Neo4j, Блог

Cypher Neo4j где попробовать бесплатно AuraDB AuraDS графы примеры курсы обучение, обучение Neo4j примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, Cypher API Neo4j примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где создать граф знаний и попробовать графовые алгоритмы для решения бизнес-задач: смотрим варианты запуска графовой СУБД на примере Neo4j. 4 варианта запуска Neo4j Neo4j является ярким представителем нереляционных СУБД и относится к категории графовых баз. Она поддерживает специализированные алгоритмы работы с графами, включая поиск путей, выявление сообществ, анализ связей и...

10Апр
2023

Как устроен HFile: тонкости хранения данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

HFile, HBase, Hadoop, Big Data курсы примеры обучение, Apache HBase дата-инженер разработка файлы курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое HFile, как появился этот низкоуровневый файловый формат, каковы его главные принципы работы, как Apache HBase использует его для хранения и быстрой аналитики больших данных, и при чем здесь фильтр Блума. Роль HFile в Apache HBase Apache HBase реализует возможности Google BigTable для Hadoop. Эта NoSQL-СУБД типа «семейство колонок»...

07Апр
2023

7 критериев выбора потоковой базы данных

Автор Анна Вичуговав категории NoSql, Блог, Цифровая трансформация

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, СУБД NoSQL потоковая передача, NoSQL курсы примеры обучение, event streaming курсы примеры обучение, архитектура данных курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковая аналитика больших данных, какие бывают СУБД потоковой передачи, когда и зачем их использовать, а также что влияет на выбор этих инструментов хранения и аналитической обработки Big Data. Что такое потоковые базы данных и как они работают Мы уже упоминали, что аналитика данных в реальном времени может быть...

01Апр
2023

Работа с диском в резидентных СУБД на примере Memgraph и Redis

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных, курсы NoSQL HBase Redis Memgraph Neo4j примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про резидентную графовую СУБД Memgraph, которая хранит данные в оперативной памяти. Сегодня рассмотрим, как выгрузить граф знаний из Memgraph на диск с помощью библиотеки GQLAlchemy, а также поговорим про персистентность другого популярного NoSQL-хранилища Redis, которое также является резидентным, но относится к семейству key-value. Как сохранить данные из...

27Мар
2023

Унификация пакетной и потоковой обработки в Delta-архитектуре с LakeHouse

Автор Анна Вичуговав категории NoSql, Spark, Блог

DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как Lakehouse объединяет пакетную и потоковую обработку, какие проблемы возникают при реализации этой гибридной архитектуры данных и каким образом они решаются с помощью Delta-подхода и Apache Spark Structured Streaming. Краткая история появления дельта-архитектуры от лямбда- и каппа-моделей Мир больших данных постоянно развивается: появляются новые технологии и архитектурные шаблоны. В частности,...

26Мар
2023

Apache HBase vs Google BigTable: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase vs BigTable сходства и отличия, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Apache HBase с Google Bigtable, чем они отличаются и какую NoSQL-СУБД выбирать для практического использования. Чем похожи NoSQL-хранилища для больших данных Apache HBase часто называют Google BigTable для Hadoop, поскольку она обеспечивает аналогичные возможности и использует многие концепции этой облачной NoSQL-СУБД. В частности, именно Bigtable был выпущен...

21Мар
2023

Что такое Memgraph и чем она отличается от Neo4j: сравнение графовых СУБД

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j vs Memgraph, сравнение Neo4j с Memgraph, NoSQL СУБД, графы базы данных примеры курсы обучение, графы Data Science примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях сегодня познакомимся с графовой резидентной СУБД Memgraph и сравним ее с Neo4j, определив достоинства, недостатки и варианты использования в задачах аналитики больших данных. Memgraph vs Neo4j Memgraph — это высокопроизводительная графовая СУБД с открытым исходным кодом, которая хранит и...

20Мар
2023

Графовая аналитика в Greenplum и PostgreSQL: обзор расширений и возможностей

Автор Анна Вичуговав категории Greenplum, Блог

графовые алгоритмы на больших данных в Greenplum примеры курсы обучение, Greenplum графы примеры курсы обучение, обработка графовых данных в Greenplum и PostgreSQL графы, обучение Greenplum Madlib, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, Greenplum MADlib Data Science, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Инструменты графовых алгоритмов для аналитики больших данных в PostgreSQL и Greenplum: обзор расширений и возможностей. Знакомимся с Apache AGE и MADlib. Графовая аналитика в PostgreSQL Реляционные СУБД отлично подходят для хранения данных с четкой структурой практически в любой предметной области и предлагают широкие возможности аналитической обработки таких данных. Но иногда реляционная...

17Мар
2023

EDA-архитектура данных в DWH: моделирование и реализация

Автор Анна Вичуговав категории Greenplum, Блог

DWH проектирование архитектуры данных Data Lake, EDA Data Lake DWH проектирование примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем схема, применяемая к данным, при чтении отличается от схемы при записи, почему она вызывает GIGO-проблему в Data Lake, и как применить принципы функциональной дата-инженерии к архитектуре данных, управляемой событиями. Схема при чтении или при записи: главное отличие NoSQL-решений от реляционных СУБД NoSQL-решения и Apache Hadoop реализуют стратегию «схема при...

16Мар
2023

Apache HBase vs Redis: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

архитектура данных, курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня на примере Apache HBase и Redis разберемся со сходствами и отличиями NoSQL-СУБД типа «семейство колонок» и «ключ-значение». Что между ними общего и что выбирать для практического использования в зависимости от сценариев применения. 3 типа NoSQL-хранилищ данных Apache HBase и Redis являются довольно популярными базами данных среди NoSQL-решений. Однако, они...

15Мар
2023

Планирование заданий Spark в EDA-архитектуре

Автор Анна Вичуговав категории Kafka, Spark, Блог

EDA event driven architecture Spark job scheduling, архитектура ПО, архитектура больших данных, Spark для разработчиков и архитекторов, Apache Spark для дата-инженеров, микросервисная архитектура EDA, Школа Больших Данных Учебный Центр Коммерсант

Как организовать эффективное планирование заданий Apache Spark в микросервисной архитектуре, управляемой событиями, с помощью паттернов Idempotent Consumer и Transactional Outbox. Проблемы оркестрации Spark-заданий shell-скриптами и переход к EDA-архитектуре При большом количестве приложений Apache Spark, которые взаимодействуют друг с другом как самостоятельные микросервисы, растет сложность управления ими. В частности, shell-скрипты позволяют...

11Мар
2023

Neo4j vs TigerGraph: сравнение графовых СУБД

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j vs TigerGraph, сравнение Neo4j с TigerGraph, NoSQL СУБД, графы базы данных примеры курсы обучение, графы Data Science примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Neo4j с TigerGraph и чем они отличаются: разбираемся с популярными графовыми СУБД и их возможностями для аналитики больших данных в рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях. Сравнение Neo4j с TigerGraph Подробно об архитектуре, принципах работы, функциональных возможностях и вариантах использования TigerGraph мы писали...

07Мар
2023

Elasticsearch + Delta Lake: архитектура данных биотех-платформы Polly

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных дата-инженер примеры курсы обучение, курсы Delta Lake Spark NoSQL, курсы по NoSQL базы данных архитектура данных примеры курсы обучение кейсы, обучение NoSQL, курсы дата-инженер, обучение Big Data для разработчиков, NoSQL Delta Lake для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Зачем биотехнологической платформе Polly от Elucidata понадобился API SQL-запросов в облачном сервисе Elasticsearch и как дата-инженеры реализовали его, развернув Delta Lake с AWS Atnena и S3. Что не так с SQL-запросами в облачном Elasticsearch на AWS Ежедневно биотехнологическая платформа Polly от Elucidata обрабатывает гигабайты биомолекулярных данных для биологов по всему...

06Мар
2023

Преимущества Apache HBase для метода ближайших соседей

Автор Анна Вичуговав категории HBase, Machine Learning, Блог

метод ближайших соседей машинное обучение, knn machine learning nosql HBase, обучение Data Science примеры курсы обучение, NoSQL HBase Hadoop, SQL-on_Hadoop примеры курсы обучение, HBase HDFS SQL Hadoop примеры курсы обучение, администратор дата-инженер Hadoop Hbase примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Метод ближайших соседей активно используется в машинном обучении для решения задач классификации в различных бизнес-приложениях. Познакомимся поближе с этим алгоритмом Machine Learning, а также разберем, почему NoSQL-хранилище Apache HBase отлично подходит для работы с ним. Что такое метод ближайших соседей: ликбез по Machine Learning В проектах Machine Learning и приложениях...

01Мар
2023

Ищем кратчайший путь с Cypher-запросами в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Cypher Neo4j кратчайший путь пример граф, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, алгоритм Дейкстры Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях, решим классическую задачу логистики в графовой базе данных Neo4j без использования методов ее специальной библиотеки Graph Data Science, а средствами Cypher-запросов. Постановка задачи: критерии оценки для поиска кратчайшего пути Поиск кратчайшего пути – это классическая задача на графах,...

25Фев
2023

Колоночные и строковые: виды хранения данных в СУБД

Автор Анна Вичуговав категории Greenplum, HBase, Блог

колоночные и строковые базы данных с примерами, архитектура данных примеры курсы обучение, хранение больших данных, реляционные и NoSQL базы данных примеры курсы обучение отличие, инженерия данных, архитектура данных, Школа Больших Данных Учебный Центр Коммерсант

Как данные хранятся на диске при разной ориентации хранилища в СУБД: чем отличаются колоночные базы от строковых с точки зрения практического использования в дата-инженерии. Сравнительная таблица с примерами и выводами. Как данные хранятся на диске и при чем здесь ориентация СУБД Способы хранения данных в СУБД можно разделить на 2...

17Фев
2023

Безопасность данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase администратор списки доступа привилегии права примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня в рамках обучения администраторов SQL-on-Hadoop рассмотрим, как защитить данные в кластере Apache HBase от несанкционированного доступа. Аутентификация и авторизация пользователей, операторы управления доступом к таблицам, метки видимости и шифрование данных. Механизмы защиты данных в Apache HBase Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает...

14Фев
2023

Зачем вам TigerGraph: обзор графовой MPP-СУБД

Автор Анна Вичуговав категории NoSql, Блог

TigerGraph примеры, графовые базы данных и языки запросов GQL TigerGraph, графовая аналитика больших данных примеры курсы обучение, Data Science TigerGraph обучение курс, анализ графов TigerGraph, TigerGraph примеры курсы обучение, обучение большим данным, Data Analyst TigerGraph курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про языки запросов к графовым базам данных, сегодня познакомимся с GSQL, который поддерживается в MPP-СУБД TigerGraph. Как работает эта распределенная NoSQL-база данных и каким образом реализует ACID-требования к транзакциям в операциях с графами. Архитектура и принципы работы графовой MPP-СУБД TigerGraph — это распределенное графоориентированное хранилище данных с массивно-параллельной...

08Фев
2023

Зачем вам CDF или как упростить CDC-конвейер для Delta Lake

Автор Анна Вичуговав категории NoSql, Spark, Блог

озеро данных Delta Lake CDC CDF, архитектура данных Delta Lake Spark, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать CDC для Delta Lake: разбираемся с функцией Change Data Feed от Databricks, которая позволяет быстро узнать обо всех изменениях строк в дельта-таблицах озера данных. Польза и принципы работы CDF для дата-инженера и архитектора данных. CDC для Delta Lake Идея сбора и обработки не всего объема данных, а только...