Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

30Апр
2025

Под капотом PREWHERE в ClickHouse: сравниваем планы запросов

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как устроена оптимизация PREWHERE для сокращения объема сканируемых данных в ClickHouse: разбираемся с деталями реализации и смотрим планы выполнения SQL-запросов. Как устроена оптимизация PREWHERE в ClickHouse Недавно мы писали, как оптимизация PREWHERE позволяет сократить объем сканируемых данных и повысить скорость выполнения SQL-запроса в ClickHouse. Сегодня рассмотрим техническую реализацию этого оператора...

29Апр
2025

Проблемы ручной фиксации смещения потребителей в Kafka и их решения с KIP-1094

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Когда и зачем фиксировать смещение потребителей Kafka вручную, с какими проблемами можно при этом столкнуться и как улучшение KIP-1094 обеспечивает целостность потоков данных в распределенных средах. Когда и зачем фиксировать смещения потребителей в Kafka вручную Недавно мы разбирали, как выполняется автоматическая фиксация смещений потребителей в Apache Kafka. Она выполняется периодически....

28Апр
2025

Зачем нужна оптимизация PREWHERE в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как ускорить выполнение SQL-запроса в ClickHouse, сократив объем сканируемых данных с помощью оператора PREWHERE: практический пример простой, но эффективной оптимизации. Как работает оператор PREWHERE в ClickHouse ClickHouse имеет ряд многоуровневых оптимизаций, благодаря которым позволяет анализировать огромные объемы данных почти в реальном времени. Одной из таких оптимизаций является PREWHERE, которая сокращает...

27Апр
2025

Не только векторные БД: графовый RAG для LLM и агентского ИИ

Автор Анна Вичуговав категории Machine Learning, NoSql

Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Что не так с векторным RAG: обогащение LLM данными из графовых баз с помощью MCP-протокола, вычислительных движков и коннекторов для построения ML-системы агентского ИИ. Что такое графовый RAG для LLM и ИИ-агентов Большие языковые модели (LLM, Large Language Model) и основанные на них системы агентского ИИ активно используют векторные базы...

26Апр
2025

Выбор колоночной OLAP-СУБД: ClickHouse или StarRocks

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, StarRocks примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что общего у ClickHouse и StarRocks, чем они отличаются, и что выбирать для аналитики больших данных в реальном времени: сравнение колоночных OLAP-СУБД с векторным движком. Чем похожи ClickHouse и StarRocks: 7 главных сходств Хотя ClickHouse сегодня считается одной из наиболее популярных СУБД для аналитики больших данных в реальном времени с...

25Апр
2025

StarRocks vs Trino: что и когда выбирать

Автор Анна Вичуговав категории Trino

Trino примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что общего у StarRocks с Trino, чем они отличаются, когда и что выбирать для практического использования: сравниваем движки для быстрой аналитики больших данных из Data Lake. Чем похожи StarRocks и Trino Вчера мы разбирали, что такое StarRocks, как устроена и где пригодится эта высокопроизводительная аналитическая база данных с открытым исходным...

24Апр
2025

Не только Clickhouse: StarRocks для аналитики больших данных в реальном времени

Автор Анна Вичуговав категории NoSql

Архитектура данных курсы примеры обучение, хранилище данных для разработчика, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Вместо Trino и ClickHouse: что такое StarRocks и как оно устроено, архитектура и принципы работы, сценарии использования и место в корпоративной архитектуре данных. Архитектура и принципы работы StarRocks Хотя ClickHouse сегодня считается одним из наиболее популярных колоночных хранилищ для аналитики больших объемов данных в реальном времени, это не единственный представитель...

23Апр
2025

Apache AirFlow 3.0: главные новости

Автор Анна Вичуговав категории AirFlow

курсы дата-инженеров Airflow, Airflow 3.0 примеры курсы обучение, Школа Больших Данных

22 апреля 2025 вышел долгожданный крупный релиз Apache Airflow. Знакомимся с главными новинками версии 3.0: изменения архитектуры и пользовательского интерфейса для повышения устойчивости и безопасности фреймворка. Еще раз про версионирование DAG в Apache AirFlow 3.0 Недавно мы писали про бета-релиз Apache AirFlow 3.0. Теперь мажорная версия вышла официально и доступна...

21Апр
2025

Водяные знаки в заданиях Flink для потоковой обработки данных из Kafka

Автор Анна Вичуговав категории Flink, Kafka

Flink Kafka примеры курсы обучение, обучение дата-инженеров, потоковая обработка данных курсы примеры обучение, Школа Больших Данных

Почему задание Flink не обрабатывает потоковые данные из топика Kafka и при чем здесь водяные знаки: причины потери данных или растущей задержки вычислений и способы их решения. Почему задание Flink не обрабатывает потоковые данные и при чем здесь водяные знаки? Рассмотрим простой потоковый конвейер на Apache Flink и Kafka: задание...

19Апр
2025

Где сохраняются и как фиксируются смещения потребителей Apache Kafka

Автор Анна Вичуговав категории Kafka

Как Apache Kafka обеспечивает упорядоченность сообщений в рамках раздела, где хранятся смещения потребителей и зачем их фиксировать вместе со эпохой брокера-лидера. Что такое смещения потребителей Apache Kafka и где они хранятся Асинхронная интеграция между информационными системами через Apache Kafka основана на смещениях потребителей – позиции сообщения в разделе топика. Раздел...

17Апр
2025

От LLM до ИИ-агентов: эволюция чат-ботов и шаблоны рабочих процессов

Автор Анна Вичуговав категории Machine Learning

агентский ИИ, Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Как развивались системы агентского ИИ, из каких компонентов они состоят, каковы их типовые архитектуры и чем отличаются друг от друга топологии построения рабочих процессов LLM. История развития систем агентского ИИ Развитие и практическое внедрение больших языковых моделей (LLM, Large Language Model) привело к появлению систем агентского ИИ, где LLM динамически...

15Апр
2025

Проект Antalya от Altinity: масштабирумый и недорогой LakeHouse на ClickHouse с Iceberg

Автор Анна Вичуговав категории ClickHouse

ClickHouse Antalya Altinity, курсы ClickHouse, озеро хранилище данных ClickHouse, архитектура данных ClickHouse, обучение ClickHouse

Как сократить затраты на хранение исторических данных в ClickHouse для ИИ-сценариев, сохранив высокую скорость аналитики по широким таблицам и озеру данных: эволюция колоночной СУБД в новом проекте с исходным кодом Antalya от Altinity. Проблемы совмещения ClickHouse с озерами данных и способы их решения Благодаря колоночной структуре хранения данных ClickHouse не...

13Апр
2025

Проблема изоляции ИИ-агентов и ее решение с помощью потоковой передачи

Автор Анна Вичуговав категории Machine Learning

Kafka примеры курсы обучение, Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Как связать ИИ-агентов: событийно-ориентированная архитектура и потоковая передача событий для интеграции доменных LLM в мультиагентную систему. Зачем нужна интеграция ИИ-агентов О проблеме изоляции и рассинхронизации данных в корпоративных хранилищах мы уже писали здесь. Похожая ситуация наблюдается и при внедрении систем агентского ИИ, где большие языковые модели (LLM, Large Language Model)...

11Апр
2025

Apache Wayang и Trino: versus или вместе

Автор Анна Вичуговав категории Beam, Trino

Trino курсы примеры обучение, Trino для разработчика, Trino примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое Apache Wayang, чем он похож на Beam и в чем разница с Trino: архитектура и принципы работы еще одного распределенного фреймворка интеграции данных. Что такое Apache Wayang и чем это отличается от Trino Trino – это мощный, но далеко не единственный инструмент распределенного выполнения аналитических запросов, способный обрабатывать...

09Апр
2025

ИИ-агенты на Apache Kafka и MCP-серверы: организация потокового обогащения LLM

Автор Анна Вичуговав категории Kafka, Machine Learning

Почему MCP-серверы с технологиями потоковой передачи событий в LLM стали трендом: примеры обогащения ИИ-агентов контекстом из Kafka. Внедрение MCP в Confluent Cloud для взаимодействия с Apache Kafka Хотя MCP-протокол, позволяющий ML-модели новыми контекстными данными, что необходимо для больших языковых моделей (LLM, Large Language Model), довольно прост с технической точки зрения,...

07Апр
2025

Как подключить LLM к контексту: модель контекстного протокола MCP

Автор Анна Вичуговав категории Machine Learning

MCP-протокол для LLM, Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Как улучшить интеграцию LLM в бизнес-процессы и информационные системы через стандартизированную передачу контекстной информации: текстовый MCP-протокол для LLM. Что контекстный протокол модели и почему он важен для LLM Одно из ключевых отличий популярных ИИ-инструментов, больших языковых моделей (LLM, Large Language Model) – это их способность генерировать ответы с учетом контекста....

05Апр
2025

AI SDK для Apache AirFlow: оркестрация LLM-задач

Автор Анна Вичуговав категории AirFlow, Machine Learning

курсы дата-инженеров Airflow AI, искусственный интеллект в инженерии данных, ИИ LLM Airflow, Школа Больших Данных

Как LLM упрощают работу дата-инженера: новые декораторы TaskFlow API в Apache Airflow для внедрения больших языковых моделей в DAG. Обзор Airflow AI SDK на основе Pydantic AI с практическим примером про анализ отзывов. ИИ в инженерии данных Мультимодальность современных инструментов машинного обучения, когда одна ML-модель может принимать на вход данные...

01Апр
2025

2 режима асинхронной вставки данных в ClickHouse и адаптивная очистка буфера

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, архитектура данных примеры курсы обучение, вставка данных в ClickHouse, инженерия данных ClickHouse

Как избежать потери данных при асинхронной вставке в Clickhouse при сбое сервера и зачем в версию 24.2 добавлен адаптивный тайм-аут очистки буфера: тонкости ETL с колоночной СУБД. Асинхронная вставка с возвратом подтверждения Недавно мы рассказали, чем хороши асинхронные вставки в ClickHouse и отметили, что при их использовании можно настроить параметр...

30Мар
2025

Что такое HTAP: гибридная транзакционно-аналитическая обработка

Автор Анна Вичуговав категории Статьи

Можно ли сочетать OLAP и OLTP-нагрузки в едином хранилище и как это сделать: гибридная транзакционно-аналитическая обработка в базах данных, возможности и проблемы этой архитектуры. Что такое HTAP Исторически хранилища данных принято делить на OLAP и OLTP с учетом их оптимизации для аналитических и транзакционных нагрузок. OLTP-системы (Online Transaction Processing) оптимизированы...

29Мар
2025

Синхронные и асинхронные вставки данных в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Чем синхронная вставка в ClickHouse отличается от асинхронной и как это настроить: лучшие практики и риски загрузки данных в колоночное хранилище. Синхронная вставка данных в ClickHouse Хотя скорость вставки данных в ClickHouse зависит от множества факторов, ее можно ускорить за счет асинхронных вставок, если предварительное пакетирование на стороне клиента невозможно....