Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

24Сен
2022

Под капотом Process Mining: графовая аналитика для анализа бизнес-процессов

Автор Анна Вичуговав категории Блог, Цифровая трансформация

PM4Py Data Science примеры курсы обучение, PM4Py Google Colab пример, PM4Py Process Mining Примеры курсы обучение, процессная аналитика, аналитика бизнес-процессов средствами Data Science, Data Mining Process Mining, обучение анализу данных, графовая аналитика больших данных, графовые алгоритмы в бизнесе, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим тему анализа и оптимизации бизнес-процессов средствами графовой аналитики больших данных. Как устроены информационные системы класса Process Mining, где еще применяются эти идеи и другие приложения теории графов в бизнесе на примере Python-библиотеки PM4Py. Что такое Process Mining Чтобы понять, как выполняется процесс, бизнес-аналитик строит его схему в виде подробной EPC...

22Сен
2022

7 причин не использовать Pickle-формат в MLOps для сохранения ML-моделей

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, курсы Data Science, вывод ML в production, ML MLOps Pickle, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали про важность переносимости ML-моделей, что является одним из аспектов MLOps-концепции. Сегодня разберем, почему популярный формат Pickle не лучший выбор для сохранения модели Machine Learning и что использовать вместо него. Пара достоинств и 7 главных недостатков формата Pickle Согласно концепции MLOps, направленной на сокращение разрыва между различными специалистами,...

16Сен
2022

4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark Python для инженеров данных и разработчиков, разработка PySpark, Apache Spark для разработчиков, Spark Python инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Spark еще больше приемов, полезных для дата-инженеров и разработчиков, сегодня рассмотрим, как упаковать PySpark-приложение, используя нативные Python-функции и сторонние решения. Отличия Virtualenv от PEX и Conda. 4 способа упаковать PySpark-приложение для запуска в кластере Apache Spark Разработчики распределенных приложений знают, что недостаточно...

23Июл
2022

Интеграционное тестирование DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

интеграционное тестирование DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, тестирование DAG airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Продолжая тему тестирования DAG в Apache Airflow, сегодня рассмотрим следующий этап проверки качества ПО – разработку интеграционных тестов. Разберемся, как при этом дата-инженер может использовать Docker Compose и Pytest, а также познакомимся с возможностями REST API самого популярного в Big Data batch-оркестратора. Идеи и инструменты интеграционного тестирования DAG в Apache...

17Июл
2022

Модульное тестирование условной логики DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

модульное тестирование DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про важность модульного тестирования DAG Apache Airflow, а также лучшие практики и инструменты реализации этого процесса. Как протестировать структуру DAG со сложной условной логикой, сделав тест детерминированным с помощью простой сортировки идентификаторов задач, а также каким образом дата-инженеру помогут шаблоны Jinja. Проверка структуры DAG в AirFlow С...

11Июл
2022

Технологии и инструменты преобразования речи в текст

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps ML Распознавание речи, машинное обучение для дата-инженеры, курсы Machine Learning Kafka Spark AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и специалистов по Machine Learning еще больше практических примеров, сегодня рассмотрим, как построить ETL-конвейер для преобразования речи в текст с использованием Apache Kafka, Airflow и Spark. А также познакомимся с популярными фреймворками и готовыми сервисами распознавания речи. ETL-конвейер распознавания речи: используемые технологии Предположим,...

10Июл
2022

Как построить логически сложный ETL-конвейер: ветвления DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

сложные конвейеры обработки данных DAG AirFlow, условная логика выполнения задач в AirFlow, AirFlow DAG операторы ветвления, AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow конвейер обработки данных примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-инженеров разберем, как организовать логическое ветвление рабочего процесса в Apache AirFlow с помощью операторов. Какие операторы позволяют организовать условную логику в DAG, чем BranchPythonOperator отличается от ShortCircuitOperator, как запустить задачу в зависимости от времени и/или дня недели, а также результата выполнения SQL-запроса. Условная логика в DAG:...

05Июл
2022

Spark vs Dask для Data Science-проектов

Автор Анна Вичуговав категории Spark, Блог

Spark vs Dask, обучение Data Science Dask Spark примеры курсы, машинное обучение Dask Spark примеры курсы, курсы Machine Learning Spark ML Dask, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберемся, когда для Data Science-проектов вместо Apache Spark, самого популярного вычислительного движка аналитики больших данных, стоить выбрать Dask – легковесную Python-библиотеку для параллельных вычислений. И, наоборот, в каких случаях инженер данных и Data Scientist получают преимущества, выбирая Spark. Что такое Dask и зачем он нужен Data Scientist’у Прежде чем...

27Июн
2022

Apache Spark 3.3.0: ТОП-10 новинок июльского релиза 2022

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL до профилирования UDF на Python. Главные изменения Apache Spark 3.3.0 Apache Spark 3.3.0 — это четвертый релиз линейки 3.x, в...

16Июн
2022

Анализ связности направленного графа с библиотекой Networkx в Google Colab

Автор Анна Вичуговав категории Блог, Статьи

курсы Data Science примеры обучение, анализ больших данных графа Networkx Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Шкоал Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое связность в графе, зачем вычислять компоненты связности и как это сделать для ориентированных графов. Продемонстрируем все вычисления с помощью методов Python-библиотеки Networkx в Google Colab. Основы теории графов и применения Networkx в Google...

15Июн
2022

Атомарность и идемпотентность в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

динамическое атомарность и идемпотентность задач в AirFlow, AirFlow DAG лучшие практики, AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow конвейер обработки данных примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров рассмотрим практическое применение 2-х важных принципов обработки данных: атомарность и идемпотентность задач в Apache Airflow. Читайте далее, как применить их к своим ETL-конвейерам, чтобы получить корректные и согласованные результаты. Все или ничего: атомарность задач Будучи популярным инструментом дата-инженерии, Apache Airflow снижает порог входа в...

02Июн
2022

Greenplum + Python: обзор расширения

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Python курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как писать UDF-функции Greenplum на Python: краткий обзор расширения PL/Python для дата-инженера и разработчика распределенных приложений. Как его установить, настроить и использовать: сопоставления типов данных, SQL-запросы, модули и функции. Поддержка Python в MPP-СУБД Поскольку освоить Python намного проще других языков программирования, например, Java или C#, неудивительно, что он сегодня очень...

30Май
2022

Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Автор Анна Вичуговав категории Machine Learning, Блог

ML MLOps Machine Learning, MLOps курсы примеры обучение, машинное обучение примеры курсы, обучение Data Science, развертывание DS, Школа Больших Данных Учебный Центр Коммерсант

Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig и датасеты в Git, а также зачем MLOps-инженеру решать вопросы архитектуры и управляться с Kubernetes. MLOps вместо Git-репозиториев Традиционные рабочие...

25Май
2022

Новинки Apache Flink 1.15: краткий обзор

Автор Анна Вичуговав категории Flink, Блог

Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Весна богата на новые релизы: в начале мая 2022 года вышел Apache Flink 1.15. Рассказываем, что нового в свежем выпуске: краткий обзор самых полезных фич для разработчика распределенных приложений, а также интересные изменения, исправления ошибок и улучшения для дата-инженера. Scala под капотом и спецификация REST API по стандарту OpenAPI Apache...

24Май
2022

Apache Airflow 2.3: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow 2.3 новый релиз обзор, AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow конвейер обработки данных примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

30 апреля 2022 года вышел новый релиз Apache Airflow, который содержит более 700 коммитов с предыдущей версии 2.2.0 и включает 50 новых функций, 99 улучшений, 85 исправлений ошибок и несколько изменений в документации. Разбираемся, что особенно важно для дата-инженера в Apache Airflow 2.3.0. ТОП-7 главных фич Apache AirFlow 2.3.0: краткий...

21Май
2022

Оконные функции PySpark в Google Colab: пара примеров

Автор Анна Вичуговав категории Spark, Блог

обучение Spark примеры курсы обучение, анализ данных Spark PySpark, PySpark Google Colab примеры курсы обучение, обучение большим данным, курсы дата-аналитик, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с помощью нескольких строк на PySpark. Запуск и использование PySpark в Google Colab Предположим, необходимо определить потенциальный доход от проведения обучающих...

15Май
2022

CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow CI/CD DevOps примеры курсы обучение, AirFlow DAG CI/CD DevOps примеры курсы обучение, развертывание DAG AirFlow Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow Python дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Интеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления версиями и как это сделать на примере GitLab CI/CD. Сложности управления DAG в разных средах AirFlow Apache Airflow считается наиболее...

07Май
2022

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с несколькими средами AirFlow, как обеспечить повторное использование и воспроизводимость, зачем нужна интеграция с инструментами и процессами CI/CD. Микрооркестрация с множеством...

06Май
2022

Автор Dmitry Ermilovв категории Machine Learning, Блог

Рекомендательные системы: продвинутые алгоритмы

В прошлой статье мы разобрали методы построения рекомендательных систем: коллаборативная фильтрация; фильтрация на контенте; фильтрация на знаниях; гибридный подход. Мы намеренно не упомянули об одном важном подходе построения рекомендаций: об использовании матричных разложений. Описание данного метода заслуживает отдельной статьи! Будем эксплуатировать традиционный для рекомендательных систем кейс рекомендации фильмов пользователям. Напомним,...

05Май
2022

3 метода управления разделами в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Spark coalesce repartition partitionBy примеры курсы обучение отличия сходства, управление разделами в Apache Spark, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали про функции перераспределения данных по разделам coalesce() и repartition(). Сегодня сравним их работу с еще одним методом управления разделами в Apache Spark и разберем, как все они могут помочь дата-инженеру и разработчику распределенных приложений повысить эффективность этого популярного фреймворка аналитики больших данных. Отобрать и поделить: лучшие практики партиционирования данных...