Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

18Май
2023

PL/Container для Greenplum: безопасный запуск UDF в Docker-контейнере

Автор Анна Вичуговав категории Greenplum, Блог

PL/Container Greenplum Docker примеры курсы обучение, расширения Greenplum , администрирование кластера Greenplum , администратор Greenplum , Greenplum для инженера данных и разработчика, UDF Greenplum примеры курсы обучение, Школа Больших данных Учебный Центр Коммерсант

Как сделать запуск UDF-функций Python или R на узлах сегмента Greenplum более быстрым и безопасным с помощью Docker-контейнеров и расширения PL/Container. Что такое PL/Container и как это использовать в Greenplum Запуск пользовательского кода для базы данных всегда имеет риск нарушения информационной безопасности. Если речь идет о стеке Big Data, ущерб...

12Дек
2022

Как перевести кластер Apache Spark от YARN в Kubernetes: пошаговый план

Автор Анна Вичуговав категории Spark, Блог

Spark Kubernetes Yarn, курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes курсы обучение, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение курсы, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Учитывая рост интереса к DevOps-инструментам, сегодня рассмотрим, зачем переводить кластер Apache Spark, управляемый YARN, в Kubernetes, и как это сделать наиболее эффективно. А также разберем, какие системные метрики контейнерных Spark-приложений надо отслеживать и с помощью каких средств. Зачем переводить кластер Apache Spark от YARN на Kubernetes Apache Spark не зря...

13Ноя
2022

Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive AWS EKS data lake, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Delta Lake, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустить его высокодоступный и масштабируемый сервис в Amazon EKS путем контейнеризации приложения. Зачем нужно внешнее хранилище метаданных Apache Hive? Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы. Это NoSQL-хранилище...

07Май
2022

Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В продолжение недавней статьи для дата-инженеров по эффективной работе с Apache AirFlow, сегодня разберем еще несколько рекомендаций от компании Astronomer, которая продвигает и коммерциализирует этот ETL-оркестратор. Чем полезна микрооркестрация с несколькими средами AirFlow, как обеспечить повторное использование и воспроизводимость, зачем нужна интеграция с инструментами и процессами CI/CD. Микрооркестрация с множеством...

28Апр
2022

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии. Как организовать эффективную маршрутизацию рабочих процессов с пакетным ETL-оркестратором: 3 лучших практики. Стандартизация сред разработки и промышленной эксплуатации с Kubernetes...

20Апр
2022

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Анна Вичуговав категории AirFlow, Блог

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как применять библиотеку Python Fire для оркестрации, а также планирования запуска batch-заданий. Зачем нам CLI или что не так с PythonOperator...

10Апр
2022

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Анна Вичуговав категории AirFlow, Блог

запуск AirFlow в Kubernetes, AirFlow примеры курсы обучение, развертывание AirFlow в Kubernetes, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы DevOps AirFlow Kubernetes , Школа Больших Данных Учебный Центр Коммерсант

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий и трудностей. Сегодня рассмотрим, как обойти их с помощью service-mesh проекта с открытым исходным кодом Istio, какие проблемы могут при...

17Мар
2022

Краткий обзор Apache Airflow Helm chart 1.5.0

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow helm chart kubernetes примеры курсы обучение, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow helm chart kubernetes example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

11 марта 2022 года вышла новая версия Apache Airflow Helm Сhart. Рассмотрим главные новинки релиза 1.5.0 и их практическую ценность с точки зрения прикладной дата-инженерии. А также разберем ключевые понятия этого менеджера пакетов Kubernetes. Что такое Helm chart в Kubernetes и причем здесь Apache AirFlow Напомним, Helm – это менеджер пакетов...

02Мар
2022

Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka Graceful shutdown, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с Apache Kafka и dyno-контейнерами приложений Heroku. Потоковая обработка данных и проблема завершения потоковых заданий в контейнерах Heroku Carwow - британская...

11Авг
2021

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение Kafka, курсы Kafka, обучение Spark, обучение PySpark, обучение Machine Learning, обучение Python в больших данных на реальных кейсах, курсы Spark для разработчиков ML, курсы PySpark для аналитики больших данных, Machine Learning NLP примеры, Python в аналитике больших данных реальные примеры, Школа Больших Данных Учебный центр Коммерсант

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение от остальной части Big Data pipeline’а, и как Docker поддерживает эту концепцию микросервисного подхода. Постановка задачи и компоненты микросервисного ML-конвейера...