Публикации с меткойPython

25Июн
2023

5 полезных инструментов для работы с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

ADA Ditto Amundsen gusty Viewflow AirFlow, AirFlow Примеры курсы обучение, дата-инженер курсы примеры Apache AirFlow, инженерия данных с Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Будучи популярным фреймворком для оркестрации пакетных процессов обработки Apache AirFlow образует вокруг себя целую экосистему. Сегодня познакомимся с некоторыми инструментами, которые пригодятся дата-инженеру для проектирования и отладки конвейеров данных: ADA, Ditto, Amundsen, gusty и Viewflow. Аналитика системных метрик Apache AirFlow с ADA и Amundsen ADA — это микросервис, созданный для...

16Июн
2023

Отладка конвейеров Apache AirFlow с on_failure_callback()

Автор Анна Вичуговав категории AirFlow, Блог

отладка и мониторинг DAG задачи Airflow, обратные вызовы Airflow, Airflow для дата-инженера, конвейеры обработки данных Airflow, регистрация и мониторинг событий Airflow, on_failure_callback Airflow, курсы Airflow, Airflow для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как использовать функции обратного вызова для отладки конвейера обработки данных в Apache AirFlow, а также отправки оповещений об ошибках. Полезные примеры регистрации и мониторинга сбоев на уровне задачи и всего DAG с on_failure_callback(). Польза обратных вызовов Apache AirFlow на примере on_failure_callback По мере роста и усложнения конвейеров данных, построенных с...

12Июн
2023

Графовые алгоритмы без графовых баз данных: поиск сообществ с Networkx

Автор Анна Вичуговав категории Machine Learning, Блог

графы примеры курсы обучение, обучение анализ графов примеры графовые алгоритмы, курсы дата-аналитик Python примеры обучение, обучение аналитике больших данных, Python задачи на графах бизнес приложения примеры, Python графы Networkx примеры курсы обучение, обучение большим данным Dayta Science аналитика больших данных графы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы разбирали, чем внутренне устройство графовых баз данных отличается от реляционных. Поэтому именно графовые базы целесообразно использовать для анализа больших графовов. Однако, на малых датасетах вполне можно обойтись и Python-библиотекой Networkx, что мы и рассмотрим далее на примере анализа банковских транзакций. Python-скрипт поиска сообществ в графе с библиотекой...

11Июн
2023

Как считать данные из Apache Kafka с определенного момента: пишем Python-скрипт

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Иногда возникает потребность в повторном чтении данных из Apache Kafka с определенного момента времени. Сегодня рассмотрим, как это сделать, написав простенький Python-скрипт потребления из раздела топика. Публикация данных в Kafka В качестве примера возьмем ранее рассмотренный в этой статье кейс приема потока обращений в интернет-магазин. Обращения могут представлять собой заявки...

09Июн
2023

Apache AirFlow 2.6: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow, очереди задач Apache AirFlow, AirFlow executors, Apache Airflow для дата-инженера, Airflow 2.6 обзор, новинки Apache Airflow, KubernetesExecutor Apache Airflow, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про устранение зависших в очереди задач в Apache AirFlow 2.6. Сегодня разберемся с другими новинками этого релиза, которые особенно важны для дата-инженера: настраиваемые поля DAG, добавление собственных уведомлений, управление ресурсами, кластеризация исполнителей Kubernetes и еще множество полезных возможностей. Главные новинки и исправления весенних выпусков Apache AirFlow в...

08Июн
2023

Как посмотреть GUI приложения Apache Spark в Google Colab с ngrok

Автор Анна Вичуговав категории Spark, Блог

Spark GUI Google Colab, Spark SQL для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Сегодня посмотрим, как запустить Spark-приложение в Google Colab и увидеть сведения о его выполнении в веб-интерфейсе на удаленной машине, тунеллированной с помощью утилиты ngrok. Проброска туннеля в Google Colab с ngrok для Spark-приложения Хотя назвать Google Colab удобной средой для разработки приложений или исследования данных, нельзя, им часто пользуются аналитики...

05Июн
2023

Из Kafka во Flink: пишем Python-приложение

Автор Анна Вичуговав категории Flink, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как написать и запустить в Google Colab свое Python-приложение считывания данных из топика Kafka с помощью коннектора FlinkKafkaConsumer из библиотеки pyflink.datastream.connectors и почему заставить его работать оказалось не так просто. Использование FlinkKafkaConsumer для доступа к Kafka из Flink приложения Недавно я показывала, как написать PyFlink-скрипт считывания данных из...

31Май
2023

6 лайфхаков работы с DAG в Apache AirFlow для дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

проектирование и реализация DAG Apache AirFlow примеры курсы обучение, управление задачами Apache AirFlow, инженерия данных примеры курсы обучение Apache AirFlow, DAG Task management Apache AirFlow, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое код верхнего уровня в Apache AirFlow, почему его следует избегать и как это сделать: шаблонные переменные, динамическое сопоставление задач, Python-функции и библиотеки для кэширования. А также 3 нативных способа создания перекрестных зависимостей между DAG для их запуска: TriggerDagRunOperator, ExternalTaskSensor и SimpleHttpOperator. Что такое код верхнего уровня в Apache...

26Май
2023

Кто кому заплатил: пример поиска банковских транзакций в Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Cypher Python Neo4j AuraDB графы примеры курсы обучение, обучение Neo4j примеры, курсы дата-аналитик Neo4j Python примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, Cypher Python Neo4j примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чтобы показать еще один вариант использования графовой базы данных Neo4j, сегодня реализуем небольшое Python-приложение, которое генерирует граф знаний в облачной платформе Aura DB. Ищем финансовые переводы между компаниями и физическими лицами, считаем общую сумму и визуализируем найденные транзакции с помощью библиотеки Networkx. Python-приложение для работы с Neo4j в AuraDB Как...

23Май
2023

Разделение датафрейма с partitionBy() в Apache Spark: практический пример

Автор Анна Вичуговав категории Spark, Блог

PySpark Faker Примеры курсы обучение, partitionBy PySpark примеры курсы обучение , управление разделами в Apache Spark, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как сгенерировать набор тестовых данных с Python-библиотекой Faker и разделить данные по разделам, используя функцию partitionBy() в PySpark. Работаем с Apache Spark в Google Colab. Как работает partitionBy() в Apache Spark Чтобы записать на диск один большой датафрейм, разделив его на несколько более мелких файлов, в Python API фреймворка Apache...

18Май
2023

PL/Container для Greenplum: безопасный запуск UDF в Docker-контейнере

Автор Анна Вичуговав категории Greenplum, Блог

PL/Container Greenplum Docker примеры курсы обучение, расширения Greenplum , администрирование кластера Greenplum , администратор Greenplum , Greenplum для инженера данных и разработчика, UDF Greenplum примеры курсы обучение, Школа Больших данных Учебный Центр Коммерсант

Как сделать запуск UDF-функций Python или R на узлах сегмента Greenplum более быстрым и безопасным с помощью Docker-контейнеров и расширения PL/Container. Что такое PL/Container и как это использовать в Greenplum Запуск пользовательского кода для базы данных всегда имеет риск нарушения информационной безопасности. Если речь идет о стеке Big Data, ущерб...

16Май
2023

Пара Python-библиотек для дата-инженера: pandas 2.0 и polars

Автор Анна Вичуговав категории Machine Learning, Блог

Python для дата-инженеров, инженерия данных с Python, Python polars pandas 2.0, обучение большим данным, курсы дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что появилось нового в мажорном релизе самой популярной Python-библиотеки pandas, чем она похожа на Rust-пакет с Python API polars и в чем между ними разница: тестирование производительности и польза для дата-инженера. Главные новинки pandas 2.0 3 апреля 2023 года вышел долгожданный релиз Python-библиотеки pandas, которая для многих дата-инженеров, аналитиков данных...

12Май
2023

Разделы и потребители Apache Kafka: практический пример

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Чтобы разобраться, как на самом деле работают разделы и потребители Apache Kafka, сегодня рассмотрим небольшой демонстрационный пример, иллюстрирующий потребление сообщений. Пишем Python-скрипты публикации и потребления сообщений из разных разделов топика Kafka с занесением данных в несколько вкладок Google-таблицы. Как сообщения распределяются по разделам топика Kafka Напомним, в Apache Kafka раздел...

10Май
2023

Пишем Python-скрипт для работы с графом в Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Сегодня решим логистическую задачу поиска кратчайшего пути, создав граф знаний в Neo4j, развернутой в облачной платформе Aura DB и визуализируем найденный путь с помощью Python-библиотеки Networkx. Работа с Neo4j в AuraDB В прошлой статье мы упоминали, что для работы с популярной графовой СУБД Neo4j совсем необязательно устанавливать ее локально. Можно...

07Май
2023

3 ошибки дата-инженера при использовании Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

шаблоны группы процессоров и процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Как сделать Apache NiFi еще эффективнее, избежав трех самых популярных ошибок дата-инженера. Разбираемся с автоматизацией операций развертывания, скриптовыми процессорами, а также шаблонами и реестром NiFi для развертывания потоков данных. Ошибка №1: ручное развертывание Хотя Apache NiFi имеет мощный пользовательский интерфейс для проектирования конвейеров потоковой обработки данных, его не стоит рассматривать...

26Апр
2023

Генерируемые столбцы в Greenplum 7: возможности и ограничения

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum PostgreSQL вычисляемые генерируемые столбцы примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum SQL инженерия данных курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Зачем в Greenplum 7 добавлены вычисляемые (генерируемые) столбцы, как их использовать, и чем они опасны: достоинства, недостатки и ограничения этой возможности. Что такое генерируемые столбцы Поскольку Greenplum основана на PostgreSQL, эта MPP-СУБД имеет множество похожих функций. В частности, в 7-ю версию Greenplum добавлена возможность сохранения вычисляемых (генерируемых) столбцов, которые вычисляются...

21Апр
2023

UML-диаграмма последовательности потребления сообщений из Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka примеры курсы обучение, потребление сообщений из Kafka UML sequence, Python-потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы разбирали работу приложения-продюсера и строили UML-диаграмму последовательности. Сегодня рассмотрим, какие системные вызовы происходят при потреблении сообщений из Apache Kafka, при чем здесь группы потребителей и фиксация смещений. Как работает потребитель Kafka Аналогично разработке приложения-продюсера, при написании кода потребителя, который считывает данные из топика Apache Kafka, используются методы специальных...

20Апр
2023

Под капотом продюсера Kafka: UML-диаграмма публикации сообщений

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как на самом деле работает приложение-продюсер Apache Kafka: разбираемся с конфигурациями и составляем UML-диаграмму последовательности системных вызовов при публикации сообщений в топик. Как работает продюсер Kafka Когда разработчик пишет приложение-продюсер, которое публикует сообщение в топик Apache Kafka, он использует методы специальных библиотек, таких как kafka-python и пр. Достаточно только создать...

19Апр
2023

Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab

Автор Анна Вичуговав категории Flink, Kafka, Блог

Как использовать DataStream API в Apache Flink: пишем потребителя из Kafka и запускаем скрипт в Google Colab. StreamExecutionEnvironment и методы коллекций потока данных в PyFlink. DataStream API в Apache Flink: PyFlink в Google Colab для работы с Kafka Apache Flink предоставляет множество возможностей разработчикам на Scala и Java, а также...

13Апр
2023

Создаем свой оператор Apache AirFlow с ChatGPT

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow custom operator, ChatGPT operator Apache AirFlow, пользовательский оператор Apache AirFlow, машинное обучение дата-инженерия ChatGPT, обучение AirFlow, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Недавно мы разбирали, как дата-инженеру написать собственный оператор Apache AirFlow и использовать его в DAG. Сегодня посмотрим, каким образом с этой задачей справляется модный ИИ под названием ChatGPT. GPT-генерация пользовательского оператора AirFlow Хотя Apache AirFow предоставляет множество операторов для выполнения самых разных задач, иногда дата-инженеру приходится писать свои собственные Python-классы,...