Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

19Сен
2022

Абсолютно безопасно: 3 security-кита в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

безопасность Apache Hive администрирование, SQL-on-Hadoop Hive администратор кластера примеры курсы обучение, Hive обучение администрирование примеры курсы Hadoop, Hadoop Hive кластер администратор примеры курсы обучение SQL Hadoop, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов SQL-on-Hadoop рассмотрим способы обеспечения информационной безопасности и защиты данных от несанкционированного доступа в Apache Hive. Классический security-набор: аутентификация, авторизация и шифрование. Авторизация и аутентификация в Apache Hive Будучи популярным инструментом стека SQL-on-Hadoop, Apache Hive поддерживает все механизмы обеспечения информационной безопасности, поддерживаемый базовой...

18Сен
2022

Трудности перехода: миграция данных с HDFS на MinIO

Автор Анна Вичуговав категории Блог, Цифровая трансформация

MinIO HDFS озеро данных примеры курсы обучение, MinIO vs HDFS примеры курсы обучение, Hadoop HDFS Data Lake озеро данных примеры курсы обучение, курсы дата-инженеров озеро данных Apache Spark Hive MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO. Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS. Зачем переходить на MinIO Хотя HDFS до сих пор активно используется во многих Big Data проектах...

17Сен
2022

Apache Kafka vs AWS Kinesis: сходства и отличия

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka vs AWS Kinesis, Kafka для архитекторов и разработчиков, архитектура данных обучение примеры курсы, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В связи с активным переходом от локальной ИТ-инфраструктуры в облачные полностью управляемые сервисы многие ИТ-архитекторы и дата-инженеры задумываются о замене собственного кластера Apache Kafka ее Cloud-альтернативами. Читайте, что общего у Apache Kafka с AWS Kinesis, чем они отличаются и какую платформу выбрать для потоковой передачи событий. Потоковая обработка событий с...

16Сен
2022

4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark Python для инженеров данных и разработчиков, разработка PySpark, Apache Spark для разработчиков, Spark Python инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Spark еще больше приемов, полезных для дата-инженеров и разработчиков, сегодня рассмотрим, как упаковать PySpark-приложение, используя нативные Python-функции и сторонние решения. Отличия Virtualenv от PEX и Conda. 4 способа упаковать PySpark-приложение для запуска в кластере Apache Spark Разработчики распределенных приложений знают, что недостаточно...

15Сен
2022

3 способа совместного использования DAG-файлов в Apache AirFlow на Kubernetes

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow Kubernetes проблемы и решения, AirFlow Kubernetes конвейер обработки данных примеры курсы обучение, AirFlow Kubernetes примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера разберем способы организации совместного использования DAG-файлов при развертывании Apache AirFlow в Kubernetes. Чем хорош вариант с общими томами и почему от него лучше отказаться в пользу Git. Как организовать обмен DAG-файлами в Apache AirFlow на Kubernetes Развертывание Apache AirFlow в кластере...

14Сен
2022

Окна и водяные знаки: потоковая обработка данных с Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink watermark windowing timestamp, курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про оконные операции в Apache Flink для потоковой аналитики больших данных, сегодня рассмотрим, как это связано с другим важным концептом потоковой обработки событий – водяным знаком. Что такое Watermark и каковы стратегии его генерации в Apache Flink: самое главное для дата-инженера. Потоковая синхронизация данных c SQL для Flink...

13Сен
2022

Тонкости MERGE-запроса в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня разберем особенности работы оператора MERGE во встроенном SQL-подобном языке запросов Cypher популярной NoSQL-СУБД Neo4j. Чем он отличается от запросов CREATE и MATCH, а также когда этот оператор более всего полезен. Как работает MERGE-запрос в Neo4j Data Scientist’ы и аналитики данных знают,...

12Сен
2022

Разделение репозиториев и настройка доступности: советы администратору Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Мы часто делимся полезными лайфхаками и лучшими практиками администрирования и эксплуатации технологий Big Data. Сегодня специально для обучения дата-инженеров рассмотрим, как лучше настроить репозитории Apache NiFi и параметры кластера, чтобы повысить производительность и надежность этого популярного ETL-маршрутизатора потока данных. 4 репозитория Apache NiFi Репозиторий потоковых файлов содержит информацию обо всех...

11Сен
2022

Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных Kafka пример, потоковая обработка событий с Apache Kafka Примеры курсы обучение, Apache Kafka Для дата-архитекторов и инженеров данных курсы обучение, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения. Архитектурный дизайн Архитектуры, основанные на событиях, обеспечивают гибкость интеграции, масштабируемость и некоторые возможности...

10Сен
2022

Инструментарий MLOps c MLflow и DVC: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow vs DVC примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow DVC примеры курсы обучение, курсы MLOps MLFlow DVC Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбираться с популярными MLOps-инструментами, сегодня рассмотрим, как MLflow реализует управление версиями модели и данных, а также чем это отличается от DVC. Преимущества и недостатки популярных MLOps-инструментов с возможностями их совместного использования. Плюсы и минусы MLflow для MLOps-инженера Концепция MLOps, направленная на сокращение разрыва между различными специалистами, участвующими в процессах...