Статьи

25Фев
2026

Как установить и настроить Claude Code в Yandex Cloud на Ubuntu 24.04

Автор Nikolay Komissarenkoв категории AI, AirFlow, ClickHouse, искусственный Интеллект, Статьи

Как установить и использовать Claude code для вайбкодинга на Ubuntu. Пособие для чайников не программистов

Установка Claude Code на Ubuntu 24.04 — процесс довольно прямолинейный, но требующий аккуратности с версиями Node.js и правами доступа. Как «самоучка», я рекомендую использовать официальный скрипт установки или NPM, но без использования sudo для самого пакета, чтобы избежать проблем с правами в будущем. Claude Code - это специализированный CLI-инструмент от...

17Фев
2026

Урок 8. Event-Driven Airflow — Запуск DAG по событиям из Apache Kafka

Автор Nikolay Komissarenkoв категории AirFlow, Kafka, NoSql, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы SQL аналитики, Курсы потоковой обработки, Статьи

Урок 9 Запуск DAG по событиям из Apache Kafka. Интеграция Airflow Kafka

До этого момента все наши DAG-и жили по расписанию. schedule_interval='@daily' - это классика. Но современный бизнес не хочет ждать "утреннего отчета". Если данные прилетели в 14:00, отчет должен быть готов в 14:10, а не на следующее утро. Здесь мы сталкиваемся с фундаментальным конфликтом: Airflow - это Batch-инструмент (запускает задачи...

07Фев
2026

Урок 7. Масштабирование Python-задач или как Airflow управляет Dask-кластером

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы SQL аналитики, Курсы потоковой обработки, Статьи

Масштабирование исполнения Python задач на кластере Dask c помощью DAG Airflow

В прошлых статьях мы выяснили: если задача тяжелая и требует Java (Spark), мы используем SparkSubmitOperator. Но что делать, если у вас "тяжелый" Python? Типичная ситуация когда вы написали отличный код на Pandas внутри PythonOperator. На тестовом файле в 100 Мб все летало. В продакшене пришел файл на 10 Гб. Как...

13Янв
2026

Как установить Jupyter Notebook в WSL Windows для постоянного использования?

Автор Nikolay Komissarenkoв категории Статьи

Бесплатное руководство как установить Jupyter Notebook под Windows WSL и Docker

Запуск по требованию Jupyter notebook и сохранение данных блокнотов .ipynb Этот гайд предназначен для тех кто использует эпизодически Jupyter Notebook и хочет иметь к ним доступ из Windows при этом оставляя возможность иметь доступ ко всем файлам блокнота и погасить Jupyter следующего раза. Итак приступим! Шаг 1: Подготовка...

30Дек
2025

Урок 6. Тяжелая артиллерия — запуск Spark-jobs через Apache Airflow

Автор Nikolay Komissarenkoв категории AirFlow, Spark, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы потоковой обработки, Статьи

Запуск задач Apache Spark c Airflow SparkSubmitOperator

Мы построили пайплайн, где данные забираются из базы и бережно складываются в HDFS. Теперь они лежат там мертвым грузом. Чтобы превратить сырые CSV в полезные отчеты, их нужно обработать: отфильтровать, агрегировать, джойнить. Делать это внутри самого Airflow (через PythonOperator и Pandas) - плохая идея если: Память: Если файл весит...

23Дек
2025

Урок 5. Наследие Hadoop — интеграция с HDFS и использование AirFlow Сенсоров

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы потоковой обработки, Статьи

Интеграция Apache Airflow с Hadoop HDFS и использование сенсоров

В мире Big Data технологии меняются с бешеной скоростью, но слон (Hadoop) все еще в комнате. Несмотря на популярность облачных S3-хранилищ, распределенная файловая система HDFS остается стандартом де-факто для многих корпоративных хранилищ Data Lake и on-premise кластеров. Даже если вы не пишете MapReduce-задачи на Java, ваш Airflow, скорее всего,...

17Дек
2025

Урок 4. Облачное хранилище — строим Data Lake на S3 с Airflow

Автор Nikolay Komissarenkoв категории AirFlow, NoSql, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы потоковой обработки, Статьи

В прошлой статье мы научили Airflow работать со структурированными данными в Postgres. Но в мире Big Data базы данных - это лишь верхушка айсберга. Основная масса данных (логи, картинки, JSON-выгрузки, бэкапы) хранится в виде файлов. Хранить эти файлы на локальном диске сервера, где крутится Airflow - плохая идея. Диск не...

10Дек
2025

Урок 3. Базы данных и Connections: как научить Airflow общаться с PostgreSQL и хранить секреты

Автор Nikolay Komissarenkoв категории AirFlow, ClickHouse, Greenplum, HBase, NoSql, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Бесплатный курс Clickhouse, Блог, Курсы SQL аналитики, Курсы потоковой обработки, Статьи

Базы данных и Connections: как научить Airflow общаться с Postgres и хранить секреты

Оркестратор сам по себе бесполезен. Apache Airflow - это дирижер, а не музыкант. Его задача - не хранить данные и не (всегда) обрабатывать их, а говорить другим системам, что делать. "Postgres, выполни этот запрос", "Spark, посчитай эту витрину", "S3, отдай файл". Но чтобы сказать "Postgres, выполни запрос", Airflow должен...

29Ноя
2025

Урок 2. Архитектура для продакшена: учим Airflow работать в команде с Redis и Celery

Автор Nikolay Komissarenkoв категории Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы потоковой обработки, Статьи

Запуск Apache Airlow with Celery Executors

В предыдущей статье мы запустили Airflow в режиме «все в одном». Это когда и планировщик, и исполнитель задач живут внутри одного процесса. Для обучения это подходит идеально, но в реальной жизни такая схема умирает первой. Представьте, что вам нужно запустить десять тяжелых SQL-запросов к базе данных и параллельно обработать пять...

20Ноя
2025

Урок 1. Установка Apache Airflow с нуля: Первый DAG и запуск в Docker

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Курсы SQL аналитики, Курсы потоковой обработки, Статьи

Урок 1 бесплатного курса по Apache Airflow - Введение в Apache Airflow

Эта статья открывает наш цикл посвященный бесплатному курсу лекций по "Apache Airflow для новичков" и закладывает фундамент для осовения всей темы. Мы разберемся, зачем вообще нужен оркестратор, как Airflow устроен внутри и как его запустить за пять минут, чтобы начать первые эксперименты. Архитектура и философия: почему Apache Airflow...

13Окт
2025

Как управлять топиками Kafka- полное удаление, очистка и аварийные сценарии

Автор Nikolay Komissarenkoв категории Kafka, Блог, Статьи

Управление топиками Apache Kafka - как удалить данные из Kafka

Как управлять топиками Kafka: полное удаление, очистка и аварийные сценарии Apache Kafka — мощный инструмент, но без должного ухода он быстро "захламляется". Топики, которые вы создавали для тестов, старые проекты или просто логи, со временем начинают занимать место и мешать. А иногда они разрастаются так, что кластер "ложится"...

10Окт
2025

Metadata Management. Данные о данных как ключ к их ценности

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Блог, Статьи

metadata management for enterprise data governance

Данные без контекста - это просто шум Представьте, что вы нашли старую пиратскую карту. На ней есть крестик, обозначающий сокровище. Но сама карта порвана, условные обозначения стерты, а масштаб неизвестен. Что вы будете делать с этой информацией? Ничего. Без контекста, без дополнительных данных о данных, эта карта -...

09Окт
2025

Data Warehousing and Business Intelligence. От данных к инсайтам для бизнеса

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Блог, Статьи

Business Intelligence — это не отчеты. Это компас для вашего бизнеса Представьте себя капитаном большого корабля в открытом море во время шторма. Как вы будете прокладывать курс? Полагаясь на интуицию и старые карты, нарисованные от руки? Возможно, вам повезет. Но скорее всего, вы налетите на рифы или заблудитесь. А теперь...

06Окт
2025

Document and Content Management. Управление неструктурированными данными

Автор Nikolay Komissarenkoв категории Data Governance, Блог, Статьи

управление неструктурированными данными c Document and content management system

За пределами таблиц. Темная сторона корпоративных данных Представьте себе айсберг. Мы видим его верхушку, сияющую на солнце — она понятна, измерима и предсказуема. Это наши структурированные данные в базах и хранилищах. Но мы знаем, что 90% массы айсберга скрыто под водой. Точно так же и в мире корпоративной...

25Сен
2025

Data Integration and Interoperability. Как «подружить» десятки систем и источников

Автор Nikolay Komissarenkoв категории Data Governance, Блог, Статьи

Интеграция данных и организация взаимодействия - DAMA DMBOK BigdataSchool

Введение. Цена молчания. Почему изолированные данные убивают ваш бизнес Мы с Вами сегодня поговорим об интеграции данных. Представьте себе человеческий организм. Мозг (руководство) принимает решения, руки (отдел продаж) выполняют задачи, голос (маркетинг) общается с миром, а ноги (логистика) обеспечивают движение. Все это работает слаженно благодаря центральной нервной системе, которая мгновенно...

20Сен
2025

Data Security. Защита данных как непрерывный процесс

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Блог, Статьи

Безопрасность данных - многоуровневая система безопасности данных в Data Lake

Данные — не только актив, но и токсичный актив Почему защита и безопасность данных важна? В мире бизнеса принято говорить, что данные — это новый ценный актив, новая нефть. Это правда, но лишь наполовину. Гораздо честнее будет сказать так: данные — это как радиоактивное топливо для атомной станции. При...

18Сен
2025

Data Storage and Operations. Как эффективно хранить и обслуживать петабайты данных

Автор Nikolay Komissarenkoв категории Архитектура данных, Блог, Статьи

применение DevOps-практик для ускорения доставки данных

Данные как океан. Где его хранить и как им управлять? Раньше, лет 15-20 назад, корпоративные данные были похожи на большое, но вполне обозримое озеро. Его можно было разместить в собственном "бассейне" — локальном дата-центре, и спокойно им управлять. Сегодня ситуация изменилась кардинально. Данные превратились в бескрайний, бушующий океан. Они...

09Сен
2025

Data Modeling and Design. От концепции к физической реализации в Big Data

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Статьи

Традиционный спор Инмона и Кимбаларавнение подходов Инмона и Кимбалла (схема "звезда")

Модель данных — язык, на котором бизнес говорит с технологиями Есть старая айтишная мудрость: "Написать код легко. Гораздо сложнее написать правильный код для правильной модели данных". И это абсолютная правда. Любую ошибку в коде можно исправить относительно безболезненно. А вот ошибка, заложенная в саму структуру данных, в модель, обходится...

07Сен
2025

Data Architecture. Проектирование фундамента для вашего озера данных

Автор Nikolay Komissarenkoв категории Data Governance, Архитектура данных, Статьи

Архитектура данных— невидимый фундамент вашего бизнеса Представьте, что вы решили построить небоскреб. С чего вы начнете? Вряд ли с выбора панорамных окон и покупки дорогой итальянской мебели для пентхауса. Любой здравомыслящий человек начинает с фундамента. С прочного, продуманного, железобетонного основания, способного выдержать вес сотен этажей, порывы ветра и даже...

04Сен
2025

Data Governance. Как построить систему руководства и контроля данными, которая работает

Автор Nikolay Komissarenkoв категории Data Governance, Статьи

Роль Data Governanceв стратегии управления данными компании

Data Governance — не «Большой Брат», а правила дорожного движения Представьте себе оживленный мегаполис в час пик. Тысячи машин (данные) несутся по сложной сети дорог (IT-системы), управляемые разными водителями (сотрудники). А теперь вообразите, что в этом городе внезапно отключили все светофоры, убрали разметку, дорожные знаки и посты ДПС. Что...