Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Апр
2024

Интеграция ClickHouse с RockDB: практический пример

Автор Анна Вичуговав категории ClickHouse, NoSql

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем, как из ClickHouse обратиться к встроенной key-value БД RockDB, используя табличный движок EmbeddedRocksDB, и познакомимся с возможностями новой песочницы колоночной базы данных. Постановка задачи и DDL-скрипты Колоночная СУБД ClickHouse поддерживает несколько движков таблиц, включая интеграционные механизмы для взаимодействия со сторонними системами, одной из которых является key-value база данных...

29Мар
2024

Как масштабировать ClickHouse: тонкости шардирования

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, администрирование ClickHouse, использование ClickHouse, шардирование ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как повысить производительность ClickHouse с помощью горизонтального масштабирования, разделив данные на шарды: принципы шардирования, стратегии выбора ключа, особенности работы с distributed-таблицами и настройки конфигураций сервера. Шардирование в ClickHouse Именно хранилище данных всегда является узким местом любой системы. Поэтому именно его надо расширить для повышения производительности. Это можно сделать с помощью...

23Мар
2024

Проектирование raw-слоя DWH для последующего преобразования в Data Vault

Автор Анна Вичуговав категории AirFlow, Greenplum

DWH Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как определить структуру Raw-слоя корпоративного хранилища данных: пример проектирования и DDL-скрипт для кейса электронной коммерции, выбор компонентов решения для архитектуры данных. Постановка задачи: анализ систем-источников Сегодня корпоративные хранилища данных (DWH, Data Warehouse) обычно реализуются в виде нескольких баз данных, связанных ETL-процессами. Причем каждая из этих гомогенных или гетерогенных, т.е. на...

22Янв
2024

Движки таблиц в ClickHouse: что и когда выбирать

Автор Анна Вичуговав категории ClickHouse

ClickHouse движки, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Одной из причин быстрой работы ClickHouse являются движки таблиц, оптимизированные на конкретные операции с данными. Сегодня рассмотрим, чем они отличаются и какой из них выбирать для разных сценариев. Движки БД ClickHouse Прежде чем разбираться с движками таблиц ClickHouse, вспомним само назначение этого термина. Движок БД или механизм хранения отвечает за...

16Янв
2024

3 вида представлений в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse представления и запросы, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Чем материализованное представление в ClickHouse отличается от обычного, зачем нужны LIVE-представления и как их использовать. Примеры SQL-запросов с VIEW для самой популярной колоночной аналитической СУБД. Представления vs словари в ClickHouse Поскольку ClickHouse, как типовая колоночная СУБД, используется для аналитической обработки огромных объемов данных в реальном времени, вопрос ускорения вычислений для...

25Дек
2023

Анализ временных рядов в ClickHouse и Greenplum

Автор Анна Вичуговав категории ClickHouse, Greenplum

Анализ данных временных рядов, ClickHouse vs Greenplum PostgreSQL, TimescaleDB vs ClickHouse, ClickHouse Greenplum примеры курсы обучение, Школа больших данных учебный центр Коммерсант

Анализ временных рядов нужен не только в Data Science, но и в мониторинге системных событий. Чем столбец с отметками времени в ClickHouse отличается от гипертаблиц в PostgreSQL и Greenplum c расширением TimescaleDB, и что выбирать для аналитики больших данных. ClickHouse для анализа временных рядов ClickHouse является колоночной СУБД для аналитической...

19Дек
2023

Словари в ClickHouse

Автор Анна Вичуговав категории ClickHouse, NoSql

ClickHouse словари, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Что такое словарь в ClickHouse, какие бывают словари, как их создать и каким командами к ним обращаться. Пара примеров со словарями в самой популярной колоночной аналитической СУБД. Что такое словарь в ClickHouse Как колоночная база данных, ClickHouse предназначена для аналитической обработки огромных объемов данных в реальном времени. Аналитические сценарии предполагают...

30Ноя
2023

SQL-запросы к Clickhouse в онлайн-песочнице: практический пример

Автор Анна Вичуговав категории ClickHouse, NoSql, Блог

Big Data, Большие данные, SQL, обработка данных, ClickHouse

Насколько быстро ClickHouse выполняет SQL-запросы: тестирование СУБД в открытой онлайн-песочнице. Примеры запросов и время их выполнения. Работа с онлайн-песочницей Clickhouse: выполнение SQL-запросов Будучи реляционной аналитической СУБД, ClickHouse позволяет обрабатывать гигабайты данных в реальном времени. Архитектурные особенности, благодаря которым реализуется такая скорость, мы недавно разбирали здесь. Чтобы оценить это на практике,...

26Ноя
2023

Greenplum vs Clickhouse: сравнение аналитических СУБД для Big Data

Автор Анна Вичуговав категории ClickHouse, Greenplum, NoSql, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, ClickHouse, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Сходства и различия популярных реляционных аналитических СУБД с открытым исходным кодом: что общего у Greenplum с ClickHouse, чем они отличаются, что и когда выбирать. Greenplum и Clickhouse: обзор возможностей для аналитики больших данных Обе СУБД являются реляционными и относятся к классу OLAP-систем, т.е. ориентированы на аналитические варианты использования, т.е. чтение...

05Апр
2022

Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache...

01Мар
2022

Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы Kafka Spark ClickHouse обучение архитектура пример, аналитика больших данных, дата-инженер курсы примеры обучение Kafka Spark, обучение разработчиков распределенных приложений и ИТ-архитекторов большим данным, Школа Больших Данных Учебный Центр Коммерсант

Практический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно для разрешения каждого вызова API в определенном временном диапазоне. Анализ событий пользовательского поведения в реальном времени Основным продуктом международной ИТ-компании...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

06Апр
2021

Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, обучение Apache Kafka, курсы для инженеров и архитекторов Big Data, инженерия больших данных, Apache Kafka для разработчиков, аналитика больших данных с Apache Pinot, Pinot and Kafka

Продолжая вчерашний разговор про потоковую аналитику больших данных на Apache Kafka и Pinot, сегодня рассмотрим особенности интеграции этих систем. Читайте далее, как входные данные Kafka разделяются, реплицируются и индексируются в Pinot, каким образом выполняется обработка данных через распределенные SQL-запросы. Также разберем, почему управление памятью серверов Pinot, потребляющих данные из Kafka,...

05Апр
2021

Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Apache Kafka, курсы для инженеров и архитекторов Big Data, инженерия больших данных, Apache Kafka Connect для разработчиков, Debezium CDC and Kafka, аналитика больших данных с Apache Pinot

В этой статье разберем несколько популярных сценариев потоковой аналитики больших данных на Kafka, CDC-платформе Debezium и быстром OLAP-хранилище Apache Pinot. Читайте далее, почему все эти Big Data технологии отлично подходят для консолидации и интеграции данных из разных источников в реальном времени, включая аналитический аудит изменений, отслеживание событий в распределенном домене...

02Окт
2020

Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование, SQL, NoSQL, Data Lake, Delta Lake, Elasticsearch, ClickHouse, DWH, обучение Apache Kafka, курсы по Apache Kafka

В этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет другие СУБД, не заменяя их полностью, почему такой вариант использования возможен в Big Data и когда он не совсем корректен....

09Июн
2020

5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, NoSQL, ClickHouse, Elasticsearch, ELK Stack

Сегодня рассмотрим основные преимущества и недостатки ELK-стека. Читайте в этой статье, чем хороши Elasticsearch с Logsatsh и Kibana, а также каковы их основные недостатки и ограничения для использования в реальных Big Data проектах. Также мы собрали для вас несколько практических примеров, где и как используется Elasticsearch в интернет-магазинах, банках и...

06Июн
2020

Что не так с ClickHouse: 10 главных недостатков

Автор Анна Вичуговав категории ClickHouse, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse

Вчера мы разобрали, чем хорош ClickHouse и почему. Сегодня рассмотрим обратную сторону скорости, расширяемости и других преимуществ этой аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Также читайте в нашей статье, как обойти недостатки и ограничения этой системы или понизить степень их влияния на...

05Июн
2020

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

Автор Анна Вичуговав категории ClickHouse, Use Cases, Блог, Статьи

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным...

03Июн
2020

Не только Kafka Engine: 4 альтернативы для интеграции ClickHouse и кейс Ситимобил

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, ClickHouse, DWH

Интеграционный движок Kafka Engine для потоковой загрузки данных в ClickHouse из топиков Кафка – наиболее популярный инструмент для связи этих Big Data систем. Однако, он не единственное средство интеграции Кликхаус с Apache Kafka. Сегодня рассмотрим, как еще можно организовать потоковую передачу больших данных от самого популярного брокера сообщений в колоночную...

02Июн
2020

3 проблемы движка интеграции ClickHouse с Kafka и способы их решения

Автор Анна Вичуговав категории ClickHouse, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, ClickHouse, Docker

Вчера мы рассматривали интеграцию ClickHouse с Apache Kafka с помощью встроенного движка. Сегодня поговорим про проблемы, которые могут возникнуть при его практическом использовании и разберем способы их решения для корректной связи этих Big Data систем. Почему случаются тайм-ауты: многопоточность и безопасность Напомним, интеграцию ClickHouse и Kafka обеспечивает встроенный движок (engine),...