Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

07Фев
2023

Горячие точки в Apache HBase и 7 способов их устранения

Автор Анна Вичуговав категории HBase, Блог

курсы HBase дата-инженер регионы таблиц ключ строки примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое горячие точки в Apache HBase, почему они возникают, чем опасны и как их избежать. Для этого заглянем под капот NoSQL-хранилища, чтобы разобраться с особенностями хранения данных по ключу строки. Что такое горячие точки в кластере Apache HBase и почему они случаются Apache HBase представляет собой колоночно-ориентированное мультиверсионное хранилище...

04Фев
2023

5 популярных языков запросов к графам

Автор Анна Вичуговав категории Neo4j, Блог

графовые базы данных и языки запросов GraphQL Gremlin Cypher SPARQL AOL, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Для продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях, сегодня рассмотрим 5 самых известных языков запросов для управления данными графов. Что общего у GraphQL, Gremlin, Cypher, SPARQL и AOL, а также чем они отличаются. GraphQL Языки запросов, используемые для управления данными графов (GQL, Graph Query Language), определяют способ извлечения...

30Янв
2023

Целостность и качество данных: ACID и транзакции в мире Big Data

Автор Анна Вичуговав категории Блог, Цифровая трансформация

качество и целостность больших данных, архитектура данных, ETL и Data Management, Big Data Quality, инженерия качества данных, процессы и инструменты обеспечения качества больших данных, ACID в распределенных транзакциях, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Чем целостность данных отличается от их качества и как реализуются ACID-свойства распределенных транзакций в Big Data системах. Разбираем понятия и технологии, важные для обучения ИТ-архитекторов и дата-инженеров. Целостность и качество данных: versus или вместе? Целостность данных и качество данных — связанные, но разные понятия, важные для дата-инженера. Целостность описывает точность...

17Янв
2023

Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

резервное копирование и восстановление данных Apache HBase, бэкапы HBase, обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности резервного копирования данных в Apache HBase на примере ИТ-компании Clairvoyant. Сегодня рассмотрим опыт индийской компании Myntra, которая предложила простую методику создания инкрементных бэкапов для Apache HBase 2.1.4 и Hadoop 2.7.3, а также восстановления нужных данных из этих резервных копий в BLOB-хранилищах по требованию пользователя. 5...

09Янв
2023

События, сообщения, микросервисы и Apache Kafka: архитектурный холивар

Автор Анна Вичуговав категории Kafka, Блог

архитектура приложений распределенные микросервисы Kafka примеры курсы обучение, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Хотя Apache Kafka часто используется в качестве шины обмена данными в микросервисной архитектуре, о чем мы писали здесь, не стоит воспринимать эту платформу как хранилище событий. В чем разница между событием и сообщением, а также другие тонкости построения микросервисной архитектуры, управляемой событиями. События vs сообщения Событие — это сообщение программной...

08Янв
2023

СУБД вместо очереди сообщений: опыт команды Dagster Cloud

Автор Анна Вичуговав категории Kafka, NoSql, Блог

PostgreSQL Big Data Примеры курсы обучение, архитектурные паттерны Big Data, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Использование СУБД вместо очереди сообщений считается антипаттерном, однако, команда разработки облачной системы организации конвейеров обработки данных Dagster Cloud выбрала PostgreSQL вместо Apache Kafka для регистрации событий. Разбираемся, почему плохой шаблон принес хорошие результаты и что нужно учитывать при выборе технологии. Почему не стоит использовать СУБД вместо очереди сообщений Dagster Cloud...

01Янв
2023

OLAP-базы данных vs потоковые stateful-приложения

Автор Анна Вичуговав категории Блог

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про сравнения технологий потоковой аналитики больших данных и аналитических баз данных реального времени на примере сравнения ksqlDB и Rockset. Продолжая этот разговор про архитектуру данных и приложений, сегодня рассмотрим сходства и отличия потоковых баз данных со stateful-приложениями обработки событий в реальном времени. 2 технологии потоковой обработки: stateful-приложения...

29Дек
2022

Под капотом NoSQL-СУБД: чем полезно LSM-дерево

Автор Анна Вичуговав категории HBase, Блог

NoSQL Apache HBase LSM Tree примеры курсы обучение, NoSQL примеры курсы обучение, обучение большим данным, курсы Big Data для разработчиков, Parquet Spark, Школа Больших Данных Учебный центр Коммерсант

Что такое LSM-дерево и как эта структура данных, лежащая в основе многих NoSQL-баз с распределенным типом ключ-значение, позволяет им обеспечивать высокую скорость записи и чтения. Смотрим на примере Apache HBase. Зачем нужны LSM-деревья Типичная СУБД состоит из нескольких компонентов, каждый из которых отвечает за обработку различных аспектов хранения, поиска и...

27Дек
2022

Глубокое машинное обучение, реляционная парадигма и логическое программирование: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

графы и таблицы нейросети Deep Learning машинное обучение, MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, Deep Learning, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, чем отличаются подходы к представлению данных в глубоком машинном обучении и реляционной логике, как это связано с декларативной парадигмой логического программирования и при чем здесь графы. А в качестве примера реализации этих идей рассмотрим комбинацию принципов Deep Learning с реляционной логикой и GNN-нейросетями в Python-библиотеке PyNeuraLogic. Машинное обучение...

25Дек
2022

SQL-on-Hadoop: Apache Hive vs Pig

Автор Анна Вичуговав категории Hive, Блог

Pig vs Hive, Apache Hive примеры курсы обучение Hadoop SQL SQL-on-Hadoop, обучение дата-инженеров Apache Hive Data Lake, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Pig сегодня не самый актуальный инструмент для аналитики больших данных в экосистеме Hadoop, дата-инженеру полезно знать его основные принципы работы и ключевые отличия от Hive. Также рассмотрим, чем Hive отличается от Pig в качестве средства SQL-on-Hadoop. Что такое Apache Pig Apache Pig – это высокоуровневый процедурный язык для...

22Дек
2022

Кто с кем против кого: анализ графа социальных связей в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

анализ социальных сетей на графах Neo4j пример курсы обучение, графовая аналитика больших данных курсы Data Science примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитики больших данных, сегодня рассмотрим, как создать граф социальных связей в веб-консоли Neo4j и сделать запросы к нему на Cypher - внутреннем SQL-подобном языке этой NoSQL-СУБД. Как построить граф социальных связей в Neo4j Возьмем в качестве примера набор деловых и личных взаимоотношений...

20Дек
2022

Каталоги, хранилища и витрины данных: принципы, практики и инструменты проектирования

Автор Анна Вичуговав категории Greenplum, Блог

каталоги витрины и хранилища данных дата-архитектура примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Хотя современная аналитика больших данных чаще базируется на Data Lake, Data Mesh, Delta Lake и DeltaLakeHouse, многие компании до сих пор активно используют классические витрины и хранилища. Разбираем особенности этих архитектур, а также оцениваем их применимость к текущим потребностям бизнеса. Витрины и хранилища данных Витрина данных (Data Mart) предоставляет информацию...

11Дек
2022

Зачем вам WebHCat – REST API к HCatalog в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

WebHCat rest api HCatalog Apache Hive, обучение Hive Hadoop SQL-on-Hadoop примеры курсы дата-инженер разработчик, курсы SQL-on-Hadoop, Hadoop SQL Hive примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое WebHCat в Apache Hive и как этот REST API позволяет взаимодействовать с HCatalog, используя стандартные HTTP-методы. Еще разберем, какие DDL-команды Hive и HiveQL не поддерживает HCatalog, а также что полезного может быть в лог-файлах Templeton. Принципы работы компонента WebHCat как REST-сервиса Apache Hive Будучи NoSQL-хранилищем класса...

02Дек
2022

Что лучше для аналитики в реальном времени: ksqlDB vs OLAP-база данных?

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB vs Rockset потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения ИТ-архитекторов и дата-инженеров сравним 2 подхода к аналитике больших данных, чтобы решить, когда потоковые вычисления, например, средствами ksqlDB в рамках Apache Kafka лучше аналитических баз данных реального времени, таких как Rockset, и наоборот. 2 способа выполнения аналитики больших данных в реальном времени Современный бизнес и...

27Ноя
2022

Apache Hive 4.0.0-alpha-2: что нового?

Автор Анна Вичуговав категории Hive, Блог

Apache Hive примеры курсы обучение Hadoop SQL SQL-on-Hadoop, обучение дата-инженеров Apache Hive Data Lake, Школа Больших Данных Учебный центр Коммерсант

16 ноября 2022 года вышел 2-ой альфа-релиз Apache Hive 4.0.0. Какие ошибки в нем исправлены и что за новые функции, важные для дата-инженера и администратора кластера Hadoop, появились. А перед этим вспомним основные принципы работы Apache Hive. Принципы работы Apache Hive Apache Hive является популярным инструментом стека SQL-on-Hadoop, позволяя обращаться...

18Ноя
2022

Как соединить таблицы в Apache HBase: JOIN в NoSQL

Автор Анна Вичуговав категории HBase, Блог

JOIN MapReduce, SQL NoSQL HBase Hadoop, SQL-on_Hadoop Примеры курсы обучение, HBase HDFS SQL Hadoop примеры курсы обучение, администратор дата-инженер Hadoop Hbase примеыры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Поиск данных по нескольким таблицам в реляционных базах данных реализуется через SQL-запрос с оператором JOIN. В NoSQL-хранилищах такая возможность может отсутствовать. Разбираем, как соединить таблицы в Apache HBase и причем здесь MapReduce. Варианты реализации JOIN в Apache HBase Будучи популярной NoSQL-базой, которая реализует возможности Google BigTable для Apache Hadoop, HBase...

13Ноя
2022

Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive AWS EKS data lake, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Delta Lake, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустить его высокодоступный и масштабируемый сервис в Amazon EKS путем контейнеризации приложения. Зачем нужно внешнее хранилище метаданных Apache Hive? Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы. Это NoSQL-хранилище...

31Окт
2022

Как перейти от Apache Hive к Iceberg: стратегии миграции данных

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive vs Iceberg, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Iceberg dalta Lake, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали, как дата-инженеры Airbnb перевели аналитические нагрузки корпоративного озера данных с Apache Hive на Iceberg и Spark. Продолжая разговор про эти фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg. Зачем уходить с Apache Hive на Iceberg и как это сделать Напомним,...

19Окт
2022

Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive

Автор Анна Вичуговав категории Hive, Блог

Какова роль каталогов метаданных в корпоративных Data Lake, почему Hive Metastore не отвечает всем потребностям современной дата-инженерии в гибком управлении данными и в чем преимущества формата открытых таблиц Iceberg над таблицами Hive и Delta Lake. Каталоги метаданных в Data Lake Для организации данных в корпоративных озерах используются каталоги метаданных, которые...

09Окт
2022

Регулярные выражения в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Каждый разработчик и дата-аналитик с закрытыми глазами напишет SQL-запрос с регулярными выражениями для поиска данных по шаблону в реляционной базе. А вот в NoSQL-СУБД такая простая задача реализуется довольно сложно. Как написать регулярное выражение в Apache HBase и запустить его на исполнение в CLI-интерфейсе shell-оболочки этого хранилища данных. Что такое...