Публикации с меткой контейнеризация

18Май
2023

PL/Container для Greenplum: безопасный запуск UDF в Docker-контейнере

Автор Анна Вичуговав категории Greenplum, Блог

PL/Container Greenplum Docker примеры курсы обучение, расширения Greenplum , администрирование кластера Greenplum , администратор Greenplum , Greenplum для инженера данных и разработчика, UDF Greenplum примеры курсы обучение, Школа Больших данных Учебный Центр Коммерсант

Как сделать запуск UDF-функций Python или R на узлах сегмента Greenplum более быстрым и безопасным с помощью Docker-контейнеров и расширения PL/Container. Что такое PL/Container и как это использовать в Greenplum Запуск пользовательского кода для базы данных всегда имеет риск нарушения информационной безопасности. Если речь идет о стеке Big Data, ущерб...

12Дек
2022

Как перевести кластер Apache Spark от YARN в Kubernetes: пошаговый план

Автор Анна Вичуговав категории Spark, Блог

Spark Kubernetes Yarn, курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes курсы обучение, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение курсы, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Учитывая рост интереса к DevOps-инструментам, сегодня рассмотрим, зачем переводить кластер Apache Spark, управляемый YARN, в Kubernetes, и как это сделать наиболее эффективно. А также разберем, какие системные метрики контейнерных Spark-приложений надо отслеживать и с помощью каких средств. Зачем переводить кластер Apache Spark от YARN на Kubernetes Apache Spark не зря...

13Ноя
2022

Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive AWS EKS data lake, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Delta Lake, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустить его высокодоступный и масштабируемый сервис в Amazon EKS путем контейнеризации приложения. Зачем нужно внешнее хранилище метаданных Apache Hive? Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы. Это NoSQL-хранилище...

07Май
2022

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с несколькими средами AirFlow, как обеспечить повторное использование и воспроизводимость, зачем нужна интеграция с инструментами и процессами CI/CD. Микрооркестрация с множеством...

28Апр
2022

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии. Как организовать эффективную маршрутизацию рабочих процессов с пакетным ETL-оркестратором: 3 лучших практики. Стандартизация сред разработки и промышленной эксплуатации с Kubernetes...

20Апр
2022

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Анна Вичуговав категории AirFlow, Блог

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как применять библиотеку Python Fire для оркестрации, а также планирования запуска batch-заданий. Зачем нам CLI или что не так с PythonOperator...

10Апр
2022

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Анна Вичуговав категории AirFlow, Блог

запуск AirFlow в Kubernetes, AirFlow примеры курсы обучение, развертывание AirFlow в Kubernetes, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы DevOps AirFlow Kubernetes , Школа Больших Данных Учебный Центр Коммерсант

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий и трудностей. Сегодня рассмотрим, как обойти их с помощью service-mesh проекта с открытым исходным кодом Istio, какие проблемы могут при...

17Мар
2022

Краткий обзор Apache Airflow Helm chart 1.5.0

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow helm chart kubernetes примеры курсы обучение, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow helm chart kubernetes example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

11 марта 2022 года вышла новая версия Apache Airflow Helm Сhart. Рассмотрим главные новинки релиза 1.5.0 и их практическую ценность с точки зрения прикладной дата-инженерии. А также разберем ключевые понятия этого менеджера пакетов Kubernetes. Что такое Helm chart в Kubernetes и причем здесь Apache AirFlow Напомним, Helm – это менеджер пакетов...

02Мар
2022

Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka Graceful shutdown, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с Apache Kafka и dyno-контейнерами приложений Heroku. Потоковая обработка данных и проблема завершения потоковых заданий в контейнерах Heroku Carwow - британская...

11Авг
2021

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение Kafka, курсы Kafka, обучение Spark, обучение PySpark, обучение Machine Learning, обучение Python в больших данных на реальных кейсах, курсы Spark для разработчиков ML, курсы PySpark для аналитики больших данных, Machine Learning NLP примеры, Python в аналитике больших данных реальные примеры, Школа Больших Данных Учебный центр Коммерсант

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение от остальной части Big Data pipeline’а, и как Docker поддерживает эту концепцию микросервисного подхода. Постановка задачи и компоненты микросервисного ML-конвейера...

15Июл
2021

5 проблем Apache NiFi на Kubernetes и способы их решения

Автор Анна Вичуговав категории NiFi, Блог

Nifi on Kubernetes, курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Clouder NiFi, Школа Больших Данных Учебный центр Коммерсант

В рамках нового курса Эксплуатация Apache NIFI, сегодня разберем особенности развертывания этого маршрутизатора потоков Big Data на платформе управления контейнерными приложениями Kubernetes. Советы дата-инженерам, как сократить расходы на AWS, избежать сбоев узлов и потерь данных, обеспечить безопасность и автоматическое масштабирование облачного кластера Apache NiFi в Amazon EKS, а также зачем...

20Май
2021

3 оператора Apache Airflow для контейнерных конвейеров данных

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow развертывание, data pipeline, AirFlow deployment AWS GCC Kubernetes

Совмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие операторы использовать для контейнерного запуска batch-задач, а также поговорим о том, как Docker-образы помогут решить проблему изменения версий Python и...

29Мар
2021

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Spark, курсы дата-инженеров, обучение инженеров Big Data, оптимизация затрат на AWS, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, предиктивная аналитика, AirFlow, ETL

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020, дата-инженеры которой смогли всего за 3 недели развернуть террабайтные ETL-конвейеры в AWS с AirFlow и Spark на Kubernetes без глубокой...

26Мар
2021

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, Hadoop

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным способам оптимизации Спарк-приложений, сегодня разберем, как инженеру Big Data ускорить их при запуске на платформе K8s. Как ускорить Spark-приложения на...

19Мар
2021

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Анна Вичуговав категории Spark, Блог

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены другие полезные обновления. Читайте далее, почему развертывание Spark на Kubernetes стало еще проще, как реализуется плавное завершение работы узла без...

18Мар
2021

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Анна Вичуговав категории Spark, Блог

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить Спарк-задание в кластер Кубернетес и почему это сэкономит затраты на вашу инфраструктуру аналитики больших данных, не повысив производительность отдельных приложений,...

23Сен
2020

Какой Machine Learning в вашем production: 5 популярных паттернов на любой вкус и 2 основные стратегии внедрения

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог, Цифровая трансформация

цифровизация, архитектура, контейнеризация, Docker, Kubernetes, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, DevOps, MLOps, Kafka, Data Lake, Hadoop

Завершая цикл статей про MLOps, сегодня мы расскажем про 5 шаблонов практического внедрения моделей Machine Learning в промышленную эксплуатацию (production). Читайте далее, что такое Model-as-Service, чем это отличается от гибридного обслуживания и еще 3-х вариантов интеграции машинного обучения в production-системы аналитики больших данных (Big Data), а также при чем тут...

20Авг
2020

Что не так с Apache Spark на Kubernetes: 5 ключевых недостатков

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Spark, Kubernetes, DevOps, администрирование, Hadoop, контейнеризация, MapReduce

Вчера мы рассказывали об основных сценариях запуска Apache Spark на Kubernetes и преимуществах этого варианта развертывания популярного Big Data фреймворка на DevOps-платформе автоматизированного управления контейнеризированными приложениями. Сегодня поговорим про обратную сторону всех этих преимуществ: читайте в нашей статье, каковы основные ограничения и главные недостатки запуска Apache Spark на Kubernetes (K8s)....

19Авг
2020

Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Spark, Kubernetes, DevOps, администрирование, Agile, Docker, Hadoop

Чтобы сделать курсы по Spark еще более интересными и полезными, сегодня мы расскажем, зачем этот Big Data фреймворк разворачивают на Kubernetes (K8s) – платформе автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Читайте в нашей статье про основные варианты использования и достоинства этого подхода к администрированию и эксплуатации Apache Spark. Зачем...

20Июл
2020

Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, Kafka, ритейл, Greenplum, Tarantol, SQL, NoSQL, AirFlow, NiFi, ETL, Data Lake, Machine Learning, машинное обучение

Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache...