Публикации с меткойDevOps

09Июл
2022

3 проблемы Flink-приложений на Kubernetes и способы их решения

Автор Анна Вичуговав категории Flink, Блог

развертывание Flink приложений на Kubernetes, Apache Flink Kubernetes ошибки и настройки, JVM RocksDB Apache Flink, Flink Kubernetes, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, с какими нетиповыми ошибками может столкнуться дата-инженер при работе с Apache Flink, а также как решить эти проблемы. Где и что править, когда сервер BLOB-объектов завис из-за слишком большого количества подключений, почему не хватает памяти при развертывании Flink-приложений в кластере Kubernetes и как ускорить инициализацию заданий. Особенности работы...

07Июл
2022

Мониторинг микросервисов с Apache Kafka, Jaeger и OpenTelemetry

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, мониторинг и трассировка распределенных систем DevOps Big Data примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и архитекторов распределенных систем рассмотрим, что такое наблюдаемость, как ее измерить и при чем здесь стандарт OpenTelemetry. А в качестве примера разберем, как французский маркетплейс Cdiscount управляет почти 1000 микросервисов в кластере Kubernetes с Apache Kafka, Jaeger, Elasticsearch и OpenTelemetry. Наблюдаемость распределенной системы: стандарт...

23Июн
2022

Что такое наблюдаемость данных и как ее обеспечить

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DataOps Примеру курсы кейсы обучение, цифровизация примеру курсы кейсы обучение, цифровая трансформация управление данными примеры ркурсы обучение, большие данные для руководителей, наблюдаемость данных, обучение дата-инженеров курсы, дата-инженер курсы обучениеи, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, почему наблюдаемость данных так важная для проектов Big Data, какие компоненты обеспечивают ценную информацию о качестве и надежности данных, чем это похоже на DataOps, а также как эти идеи реализовать на практике с использованием популярных инструментов современной дата-инженерии. Почему важна наблюдаемость данных Цифровизация предполагает управление на основе качественных...

13Июн
2022

Как управлять изменениями в ML-системах с MLOps

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, курсы Spark для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Что и насколько часто меняется в системах машинного обучения, почему необходимо отслеживать эти изменения и как MLOps помогает справиться с управлением ML-моделями, данными, кодом и инфраструктурой развертывания. Почему стек технологий MLOps такой разношерстный и какие инструменты выбирать для практического использования. MLOps для решения дрейфа данных и других проблем ML-систем Машинное...

30Май
2022

Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Автор Анна Вичуговав категории Machine Learning, Блог

ML MLOps Machine Learning, MLOps курсы примеры обучение, машинное обучение примеры курсы, обучение Data Science, развертывание DS, Школа Больших Данных Учебный Центр Коммерсант

Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig и датасеты в Git, а также зачем MLOps-инженеру решать вопросы архитектуры и управляться с Kubernetes. MLOps вместо Git-репозиториев Традиционные рабочие...

22Май
2022

ТОП-5 проблем с данными в ML-системах и MLOps для их устранения

Автор Анна Вичуговав категории Machine Learning, Блог

Что не так с датасетами в системах машинного обучения, с какими трудностями сталкиваются аналитики, инженеры данных и специалисты по Data Science при внедрении MLOps, почему важна согласованность различных информационных хранилищ, зачем и как внедрять оперативный мониторинг за качеством данных. Разбираем трудности разработки и поддержки Machine Learning в production. 5 проблем...

15Май
2022

CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow CI/CD DevOps примеры курсы обучение, AirFlow DAG CI/CD DevOps примеры курсы обучение, развертывание DAG AirFlow Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow Python дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Интеграция Apache Airflow с инструментами CI/CD является одной из лучших практик современной дата-инженерии, о чем мы недавно писали. Читайте далее, зачем нужно управлять кодом DAG с помощью популярных систем управления версиями и как это сделать на примере GitLab CI/CD. Сложности управления DAG в разных средах AirFlow Apache Airflow считается наиболее...

13Май
2022

DevOps + MLOps: мониторинг ML-моделей с New Relic

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps мониторинг ML-моделей в production, обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Зачем нужен мониторинг ML-систем в production, чем он отличается от простого отслеживания метрик ПО и при чем здесь MLOps. Как настроить телеметрию ML-приложений в New Relic: 5 простых шагов для специалистов по Machine Learning и дата-инженеров. Зачем нужен мониторинг ML-систем и при чем здесь MLOps В реальных системах машинного обучения...

04Май
2022

Что такое CML: MLOps и непрерывное машинное обучение

Автор Анна Вичуговав категории Machine Learning, Блог

CMl CI/CD MLOps, обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Что такое непрерывное машинное обучение, как оно работает и при чем здесь MLOps. Почему сложно вести разработку ML-моделей в стиле CI/CD и как CML помогает обойти эти ограничения. Автоматизация процессов непрерывной интеграции и доставки с помощью open-source CLI-инструмента от Iterative.ai. Трудности CI/CD в Machine Learning и MLOps Поддерживаемые DevOps-концепцией идеи...

30Мар
2022

MLOps-конвейер с MLFlow: CI/CD для модели машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сложности разработки и развертывания ML-систем и способы их решения с помощью концепции MLOps. Продолжая эту тему, важную для обучения специалистов по Data Science, аналитиков и инженеров данных, сегодня рассмотрим основные некоторые преимущества фреймворка MLFlow для создания надежных конвейеров CI/CD в системах машинного обучения. CI/CD в MLOps...

29Мар
2021

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Spark, курсы дата-инженеров, обучение инженеров Big Data, оптимизация затрат на AWS, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, предиктивная аналитика, AirFlow, ETL

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020, дата-инженеры которой смогли всего за 3 недели развернуть террабайтные ETL-конвейеры в AWS с AirFlow и Spark на Kubernetes без глубокой...

26Мар
2021

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, Hadoop

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным способам оптимизации Спарк-приложений, сегодня разберем, как инженеру Big Data ускорить их при запуске на платформе K8s. Как ускорить Spark-приложения на...

19Мар
2021

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Анна Вичуговав категории Spark, Блог

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены другие полезные обновления. Читайте далее, почему развертывание Spark на Kubernetes стало еще проще, как реализуется плавное завершение работы узла без...

18Мар
2021

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Анна Вичуговав категории Spark, Блог

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить Спарк-задание в кластер Кубернетес и почему это сэкономит затраты на вашу инфраструктуру аналитики больших данных, не повысив производительность отдельных приложений,...

16Фев
2021

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, облака, SQL, DevOps, Kubernetes

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache Kafka с Kubernetes для построения надежных систем потоковой аналитики больших данных, а также чем ksqlDB отличается от KSQL. Apache Kafka...

20Янв
2021

Пробуем приложения Apache Kafka Streams в Kubernetes: probe-механизм и проблемы stateful

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Вчера мы говорили про сложности развертывания множества stateful-приложений Apache Kafka Streams в кластере Kubernetes и роль контроллера StatefulSet, который поддерживает состояние реплицированных задач за пределами жизненного цикла отдельных подов. В продолжение этой темы, сегодня рассмотрим механизм проб, которые позволяют определить состояние распределенного приложения, развернутого на платформе контейнерной виртуализации. В качестве...

19Янв
2021

Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Сегодня рассмотрим особенности запуска приложений Apache Kafka Streams для потоковой обработки больших данных с отслеживанием состояния в кластере Kubernetes. Читайте далее, в чем проблема управления stateful-приложениями Kafka Streams в Kubernetes и как ее решает контроллер StatefulSet. Что обеспечивает хранение состояний в Apache Kafka Streams Напомним, Kafka Streams – это легковесная...

13Дек
2020

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

инженерия больших данных, обучение инженеров данных, курсы по инженерии Big Data, курсы Hadoop, курсы Spark, курсы Hive, курсы HBase, обучение Hadoop, обучение Spark, обучение Hive, обучение HBase,Big Data, Большие данные, обработка данных, архитектура, DataOps, Spark, DevOps, Hadoop, Hive, HBase, ETL

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать его наиболее эффективным образом. В качестве практического примера рассмотрим кейс британской компании кибербезопасности Panaseer, которой удалось в 10 раз сократить...

08Дек
2020

Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Storm, Cassandra, Kubernetes, облака, DevOps

Чтобы добавить в наш новый курс по Apache Kafka для разработчиков еще больше практических примеров, сегодня мы приготовили для вас кейс немецкой железнодорожной компании Deutsche Bahn AG. Читайте далее, почему приложения Kafka Streams заменили Apache Storm и как крупнейшая транспортная компания Германии построила собственную информационную платформу на базе Apache Kafka,...

27Ноя
2020

От open-source до Confluent: 3 клиента Python для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, Кафка для разработчиков, Apache Kafka for developers, Apache Kafka Python, обработка данных, большие данные, Big Data, Kafka, Python, librdkafka, PyKafka, Kafka-Python

Развивая наш новый курс по Apache Kafka для разработчиков, сегодня мы рассмотрим 3 способа о взаимодействии с этой популярной Big Data платформой потоковой обработки событий с помощью языка Python, который считается самым распространенным инструментом в Data Science. Читайте далее, что такое librdkafka, чем PyKafka отличается от Kafka-Python и почему решение...