Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

21Сен
2022

4 серьезных уязвимости Greenplum и PostgreSQL за 2 последние года

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Arenadata DB курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про устранение серьезной уязвимости PostgreSQL в свежем выпуске Greenplum 6.21.1. Продолжая тему cybersecurity, сегодня разберем другие значимые угрозы, которые были устранены в этой MPP-СУБД в 2022 и 2021 годах. Угрозы безопасности Greenplum и PostgreSQL Будучи основанной на объектно-реляционной СУБД PostgreSQL, что мы разбирали здесь, Greenplum подвержен многим...

20Сен
2022

Сбалансированная изоляция данных в мультиарендном кластере Apache HBase: опыт Flipkart

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Для практического обучения дата-инженеров и архитекторов Big Data систем сегодня рассмотрим трудности изоляции и распределения в кластере Apache HBase и способы их обхода. С какими проблемами изоляции и сбалансированного распространения данных столкнулись инженеры индийской e-commerce компании Flipkart при организации мультиарендного кластера Apache HBase и как их решили. Изоляция данных и...

19Сен
2022

Абсолютно безопасно: 3 security-кита в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

безопасность Apache Hive администрирование, SQL-on-Hadoop Hive администратор кластера примеры курсы обучение, Hive обучение администрирование примеры курсы Hadoop, Hadoop Hive кластер администратор примеры курсы обучение SQL Hadoop, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов SQL-on-Hadoop рассмотрим способы обеспечения информационной безопасности и защиты данных от несанкционированного доступа в Apache Hive. Классический security-набор: аутентификация, авторизация и шифрование. Авторизация и аутентификация в Apache Hive Будучи популярным инструментом стека SQL-on-Hadoop, Apache Hive поддерживает все механизмы обеспечения информационной безопасности, поддерживаемый базовой...

18Сен
2022

Трудности перехода: миграция данных с HDFS на MinIO

Автор Анна Вичуговав категории Блог, Цифровая трансформация

MinIO HDFS озеро данных примеры курсы обучение, MinIO vs HDFS примеры курсы обучение, Hadoop HDFS Data Lake озеро данных примеры курсы обучение, курсы дата-инженеров озеро данных Apache Spark Hive MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO. Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS. Зачем переходить на MinIO Хотя HDFS до сих пор активно используется во многих Big Data проектах...

17Сен
2022

Apache Kafka vs AWS Kinesis: сходства и отличия

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka vs AWS Kinesis, Kafka для архитекторов и разработчиков, архитектура данных обучение примеры курсы, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В связи с активным переходом от локальной ИТ-инфраструктуры в облачные полностью управляемые сервисы многие ИТ-архитекторы и дата-инженеры задумываются о замене собственного кластера Apache Kafka ее Cloud-альтернативами. Читайте, что общего у Apache Kafka с AWS Kinesis, чем они отличаются и какую платформу выбрать для потоковой передачи событий. Потоковая обработка событий с...

16Сен
2022

4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark Python для инженеров данных и разработчиков, разработка PySpark, Apache Spark для разработчиков, Spark Python инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Spark еще больше приемов, полезных для дата-инженеров и разработчиков, сегодня рассмотрим, как упаковать PySpark-приложение, используя нативные Python-функции и сторонние решения. Отличия Virtualenv от PEX и Conda. 4 способа упаковать PySpark-приложение для запуска в кластере Apache Spark Разработчики распределенных приложений знают, что недостаточно...

14Сен
2022

Окна и водяные знаки: потоковая обработка данных с Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink watermark windowing timestamp, курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про оконные операции в Apache Flink для потоковой аналитики больших данных, сегодня рассмотрим, как это связано с другим важным концептом потоковой обработки событий – водяным знаком. Что такое Watermark и каковы стратегии его генерации в Apache Flink: самое главное для дата-инженера. Потоковая синхронизация данных c SQL для Flink...

13Сен
2022

Тонкости MERGE-запроса в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня разберем особенности работы оператора MERGE во встроенном SQL-подобном языке запросов Cypher популярной NoSQL-СУБД Neo4j. Чем он отличается от запросов CREATE и MATCH, а также когда этот оператор более всего полезен. Как работает MERGE-запрос в Neo4j Data Scientist’ы и аналитики данных знают,...

11Сен
2022

Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных Kafka пример, потоковая обработка событий с Apache Kafka Примеры курсы обучение, Apache Kafka Для дата-архитекторов и инженеров данных курсы обучение, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения. Архитектурный дизайн Архитектуры, основанные на событиях, обеспечивают гибкость интеграции, масштабируемость и некоторые возможности...

10Сен
2022

Инструментарий MLOps c MLflow и DVC: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow vs DVC примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow DVC примеры курсы обучение, курсы MLOps MLFlow DVC Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбираться с популярными MLOps-инструментами, сегодня рассмотрим, как MLflow реализует управление версиями модели и данных, а также чем это отличается от DVC. Преимущества и недостатки популярных MLOps-инструментов с возможностями их совместного использования. Плюсы и минусы MLflow для MLOps-инженера Концепция MLOps, направленная на сокращение разрыва между различными специалистами, участвующими в процессах...