Публикации с меткойPython

06Апр
2023

Python для Greenplum: обработка миллионов строк внутри БД с новой библиотекой

Автор Анна Вичуговав категории Greenplum, Блог

GreenplumPython Greenplum Python примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Python курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чего не хватает в PL/Python и зачем нужна еще одна библиотека для создания Python-скриптов обработки данных в Greenplum. Возможности API GreenplumPython и сравнение с pandas. Что такое PL/Python и как это работает в Greenplum Мы уже писали, что Greenplum изначально поддерживает Python, предоставляя PL/Python – загружаемый процедурный язык, который позволяет...

03Апр
2023

Как создать свой оператор и использовать обратные вызовы в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

callback AirFlow custom operator, обратные вызовы Apache AirFlow, пользовательский оператор Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Как написать пользовательский оператор Apache AirFlow и использовать его в DAG. А также чем хороши функции обратного вызова вместо XCom, и когда их не следует применять. Создаем свой оператор AirFlow и используем его в DAG Однажды мы уже разбирали, как создать свой оператор Apache AirFlow на примере сенсора – оператора...

23Мар
2023

Бизнес-логика в DAG Apache AirFlow c ShortCircuitOperator

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow ShortCircuitOperator примеры курсы обучение, обучение дата-инженер AirFlow, Apache Airflow для дата-инженера примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать условную логику выполнения задач в DAG-конвейере Apache AirFlow, используя оператор ShortCircuitOperator. А также зачем использовать декоратор и при чем здесь правило триггера. Что такое ShortCircuitOperator в Apache AirFlow и как он работает Мы уже писали здесь и здесь, что с помощью операторов, существующих в Apache AirFlow, дата-инженер может...

12Мар
2023

MLOps c Python-библиотекой Evidently: обнаружение дрейфа данных в ML-моделях

Автор Анна Вичуговав категории Machine Learning, Блог

дрейф данных ML-моделей Evidently Python, MLOPS примеры курсы обучение дата-инженер, курсы PySpark для дата-инженеров, обучение Python MlOps инженерия данных, Data Science ML MLOps примеры курсы обучение, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Зачем нужна Python-библиотека Evidently, и как она помогает специалистам по Data Science выявлять дрейф данных моделей Machine Learning в производственной среде. Знакомимся с еще одним MLOps-инструментом. Что такое дрейф данных, чем это опасно и как его обнаружить В отличие от многих других информационных систем, проекты машинного обучения очень сильно зависят...

03Мар
2023

Зачем и как совмещать dbt с Apache AirFlow?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow и dbt инженеров данных, dbt примеры курсы обучение, AirFlow примеры курсы обучение инженерия данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache AirFlow курсы, Data Build tool AirFlow, Школа Больших Данных Учебный центр Коммерсант

Что такое dbt, чем полезен этот инструмент для анализа и инженерии данных, зачем переносить в него бизнес-логику обработки данных и представлять эти задачи в DAG-конвейере Apache AirFlow. Python и SQL для анализа данных и дата-инженерии: versus или вместе? Распил крупных монолитных систем на множество автономных взаимодействующих друг с другом приложений...

16Фев
2023

MLOps с Graphene: зачем и как использовать GraphQL для проектов Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

GraphQL Python Flask ML MLOps Data Science Machine Learning, аналитика больших данных примеры курсы обучение, Data Science обучение курс, обучение большим данным, MLOps-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы упоминали GraphQL как мощный и гибкий язык запросов к данным, хранящимся в графовых СУБД. Сегодня рассмотрим, чем эта технология может быть полезна в проектах Machine Learning, какие сложности с ней связаны и как их решить с помощью MLOps. GraphQL для ML: возможности и примеры Не будучи в чистом...

29Янв
2023

Apache Flink 1.16.0: обзор релиза

Автор Анна Вичуговав категории Flink, Блог

Apache Flink 1.16 для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

28 октября 2022 года вышел мажорный релиз Apache Flink. Что нового в выпуске 1.16.0, который сегодня имеет официальный статус стабильного: зачем нужен SQL Gateway, как улучшен Changelog State Backend, какие DDL-выражения добавлены и зачем внесена поддержка кэширования результата преобразования в PyFlink. Главные обновления Apache Flink 1.16 В версии 1.16 Flink...

23Янв
2023

Зачем вам RawGraphs: визуализация данных в Data Science

Автор Анна Вичуговав категории Блог

курсы Data Science примеры обучение, анализ и визуализация больших данных RawGraphs примеры курсы обучение, визуальный анализ больших данных примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения наших курсов по машинному обучению и Data Science, сегодня познакомимся с полезным инструментом визуализации данных. Что такое RawGraphs, как он работает и чем полезен для аналитики больших данных: смотрим на практическом примере. Что такое RawGraphs и как это работает Специалисты по Data Science и аналитики данных часто...

21Янв
2023

3 способа подключить сервер Jupyter к защищенному кластеру Spark на Hadoop YARN с Kerberos

Автор Анна Вичуговав категории Spark, Блог

Sparkmagic Lighter Jupyter Notebook Spark Python, PySpark примеры курсы обучение, Apache Spark разработка дата-инженер примеры курсы обучение, Livy Spark Hadoop yarn Kerberos, Школа Больших Данных учебный Центр Коммерсант

Интерактивные блокноты Jupyter стали фактически стандартом де-факто для Data Scientist’ов, использующих Python. Многие дата-инженеры и разработчики Spark тоже используют этот легковесный, но очень удобный инструмент. Однако, чтобы применять его для промышленной разработки Big Data приложений, нужно подключить сервер Jupyter к кластеру Spark. Читайте, как это сделать, если кластер Apache Spark...

04Янв
2023

Практический NLP с Python-библиотекой spaCy для SEO-задач в Google Colab

Автор Анна Вичуговав категории Machine Learning, Блог

Python NLP spaCy Data Science примеры обучение, курсы Data Science примеры обучение, анализ больших данных Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения наших курсов по Data Science и Machine Learning, сегодня познакомимся с Python-библиотекой spaCy и русскоязычной NLP-моделью, развернув их в интерактивной среде Google Colab. В качестве практического примера решим небольшую SEO-задачу: определим части речи для каждого слова в небольшом тексте и количество их повторений. Применение библиотеки spaCy на...

27Дек
2022

Глубокое машинное обучение, реляционная парадигма и логическое программирование: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

графы и таблицы нейросети Deep Learning машинное обучение, MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, Deep Learning, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, чем отличаются подходы к представлению данных в глубоком машинном обучении и реляционной логике, как это связано с декларативной парадигмой логического программирования и при чем здесь графы. А в качестве примера реализации этих идей рассмотрим комбинацию принципов Deep Learning с реляционной логикой и GNN-нейросетями в Python-библиотеке PyNeuraLogic. Машинное обучение...

16Дек
2022

Потоковое машинное обучение с Python-библиотекой River

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, Python River, потоковое и пакетное машинное обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня поговорим про Python-библиотеку River, которая позволяет быстро и дешево обновлять модели машинного обучения в производственной среде в режиме реального времени. Чем потоковые ML-конвейеры отличаются от пакетных и с какими сложностями при их реализации может столкнуться Data Scientist. Что такое потоковое машинное обучение Data Scientist’ы обычно используют пакетное обучение для...

20Ноя
2022

Как безопасно читать данные из AWS S3 с Apache Spark и boto3

Автор Анна Вичуговав категории Spark, Блог

Python boto3 AWS S3 Apache Spark примеры курсы обучение, безопасность и защита данных в Big Data, шифрование Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Spark для дата-инженеров еще более полезными, сегодня рассмотрим, как PySpark-задания могут считывать данные из корзин объектного хранилища AWS S3, используя Python-пакет boto3. Читайте далее, что представляет собой этот SDK, как использовать его вместе с IAM-ролями, а также как обеспечить безопасность конфиденциальных данных с помощью...

11Ноя
2022

Что такое Py2neo: Python вместо Cypher в приложениях с Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Cypher Python Py2neo, обучение Neo4j курсы примеры, Neo4j Python для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой для аналитики больших данных аналитике больших данных, сегодня познакомимся с клиентской Python-библиотекой Neo4j под названием Py2neo, которая позволяет отказаться от языка запросов Cypher. Читайте далее, что это такое, как работает и где пригодится. Python вместо Cypher в приложениях для Neo4j Манипуляции с...

08Ноя
2022

Асинхронное программирование в ML-системах

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение python примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, ML Python, ML MLOps Machine Learning, Machine Learning Python MLOps примеры курсы обучение, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Поскольку концепция MLOps стремится устранить разрывы между разработкой ML-модели и ее имплементацией в эффективный программный код, сегодня поговорим про важную идею программирования, связанную с синхронностью и асинхронностью вызовов. Что такое асинхронное программирования, зачем это нужно в Machine Learning и какие Python-библиотеки поддерживают это. Проблемы синхронных вызовов в ML-системах В реальных...

04Ноя
2022

Динамическое изменение DAG Apache AirFlow через файл с плоской структурой

Автор Анна Вичуговав категории AirFlow, Блог

DAG AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Дата-инженеры часто сталкиваются с изменением структуры конвейера обработки данных в Apache AirFlow, например, когда добавляются новые источники или приемники данных. Однако, менять DAG каждый раз при изменении внешних условий довольно утомительно. Читайте далее, как автоматизировать реорганизацию DAG, используя JSON, YAML-файл или другую плоскую структуру данных для хранения динамической конфигурации рабочего...

29Окт
2022

Как использовать цепи Маркова для анализа моделей рекламной атрибуции

Автор Анна Вичуговав категории Machine Learning, Блог

примеры Data Science Google Colab pandas networkx matplotlib примеры курсы обучение, цепи Маркова примеры в реальном бизнесе, ципе маркова в рекламе и маркетинге, курсы Data Science примеры обучение, анализ больших данных графа Networkx Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, что такое цепь Маркова, как это используется в практических приложениях Data Science и с помощью каких инструментов реализуется этот граф состояний. В продолжение этой полезной для обучения дата-аналитиков темы посмотрим на модели маркетинговой атрибуции как на марковские цепи и разберем пользу этого представления. Практический пример в Google...

26Окт
2022

Обновление Apache AirFlow : самое важное для дата-инженера и администратора

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow инженерия данных, дата-инженер примеры курсы обучение AirFlow, инженерия данных примеры курсы обучение, ETL-процессы курсы, Apache AirFlow обновление, администратор кластера Apache AirFlow примеры курсы кейсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера Apache AirFlow рассмотрим, как обновить этот ETL-планировщик, используя концепцию сине-зеленого развертывания. Также рассмотрим, с какими ошибками можно столкнуться, выполняя миграцию базы данных метаданных и как их решить. Сине-зеленое развертывание для обновления AirFlow Как и любое программное обеспечение, Apache AirFlow нужно периодически...

24Окт
2022

Построение MLOps-платформы с открытыми инструментами

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение инструменты, примеры MLOps курсы обучение, курсы по цифровизации, обучение цифровизации, машинное обучение и аналитика больших данных для руководителей курсы, курс по машинному обучению для менеджеров, автоматизация машинного обучения, Machine Learning Operations, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как реализовать полноценный MLOps-цикл, используя свободные инструменты с открытым исходным кодом: MLflow, Kubeflow, Seldon, Streamlit, AirFlow, Git, Prometheus и Grafana. Процессы жизненного цикла ML-систем Концепция MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров машинного обучения в производственной среде, устраняя рост технического долга в ML-проектах....

18Окт
2022

Марковские цепи для анализа данных и NLP: теория и практика

Автор Анна Вичуговав категории Machine Learning, Блог

цепь Маркова Python NLP Data Science примеры обучение, курсы Data Science примеры обучение, анализ больших данных графа Networkx Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения аналитиков данных и специалистов по Data Science рассмотрим, что такое цепь Маркова, где это используется в практических приложениях и с помощью каких инструментов можно реализовать этот граф состояний. В качестве примера рассмотрим генерацию фраз из небольшого текста с помощью методов библиотеки markovify в интерактивном блокноте...