Публикации с меткой облака

10Ноя
2023

Вместо Neosemantics: обзор Python-библиотеки rdflib-neo4j для графовой СУБД Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j Python RDF rdflib-neo4j, RDF триплеты графы Neo4j Neosemantics, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j Neosemantics RDF курсы, NoSQL Neo4j Neosemantics для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Neosemantics RDF Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что не так с Neosemantics и зачем нужна очередная библиотека для Neo4j: знакомство с Python-пакетом для RDF-графов rdflib-neo4j. Возможности, ограничения и пример использования. Что не так с Neosemantics и зачем нужна очередная библиотека для Neo4j Что такое RDF-графы, триплеты и плагин Neosemantics для работы с этими концепциями в графовой СУБД...

23Авг
2023

Как Apache Flink работает с файловыми системами

Автор Анна Вичуговав категории Flink, Блог

Flink HDFS S3 GCS файловая система, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие файловые системы поддерживает Apache Flink: средства взаимодействия с файлами, хранящимися локально или в объектных хранилищах HDFS, S3 и GCS. Особенности работы с файловыми системами в Apache Flink Apache Flink имеет собственную абстракцию файловой системы через класс org.apache.flink.core.fs.FileSystem. Эта абстракция обеспечивает общий набор операций и минимальные гарантии для различных типов...

08Авг
2023

От ETL до EtLT: эволюция в архитектуре конвейеров обработки данных

Автор Анна Вичуговав категории Блог, Статьи

EtLT-конвейер, архитектура конвейера данных, архитектура данных примеры курсы обучение, Data Lake DWh LakeHouse примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Как развивалась архитектура конвейеров обработки данных, что такое EtLT и почему этот подход почему постепенно заменяет классические ETL и ELT-инструменты. Краткая история развития современной дата-инженерии. От ETL к ELT и обратно: предыстория Архитектура конвейеров обработки данных претерпела несколько итераций от ETL, ELT, XX ETL (Reverse ETL, Zero-ETL) до EtLT. Если экосистема...

07Авг
2023

Многоуровневое хранилище в Apache Kafka: разбираемся с KIP-405

Автор Анна Вичуговав категории Kafka, Блог

многоуровневое хранилище Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka хранение данных, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой очередное предложение по улучшению проекта Apache Kafka, которое расширяет возможности этой распределенной платформы потоковой передачи событий, превращая ее в средство долговременного хранения данных. Надежность vs скорость: вечный компромисс в Apache Kafka Изначально Apache Kafka позиционировалась как middleware, т.е. сервисный слой для асинхронной интеграции нескольких информационных систем. Этот...

03Авг
2023

ETL для PostgreSQL с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow PostreSQL , DAG Apache AirFlow PostreSQL Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня реализуем простой ETL-конвейер для реляционной СУБД PostgreSQL, запустив Apache AirFlow в интерактивной среде Google Colab. Пример DAG из 3-х задач: получить количество строк в одной из таблиц БД, сгенерировать новые строки и записать их, не нарушив ограничений уникальности первичного ключа. Постановка задачи Возьмем в качестве примера базу данных для...

27Июл
2023

4 главных недостатка запуска Apache AirFlow в Colab

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Медленно, муторно, небезопасно: что не так с запуском Apache AirFlow в интерактивной среде Google Colab и можно ли с этим смириться. Разбираем на личном опыте. Трудности работы с Apache AirFlow в среде Google Colab О том, что можно настроить AirFlow в Google Cloud Platform, и запускать DAG-файлы из Colab, используя...

26Мар
2023

Apache HBase vs Google BigTable: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase vs BigTable сходства и отличия, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Apache HBase с Google Bigtable, чем они отличаются и какую NoSQL-СУБД выбирать для практического использования. Чем похожи NoSQL-хранилища для больших данных Apache HBase часто называют Google BigTable для Hadoop, поскольку она обеспечивает аналогичные возможности и использует многие концепции этой облачной NoSQL-СУБД. В частности, именно Bigtable был выпущен...

18Мар
2023

Где лучше запустить Flink-приложение: Kubernetes vs AWS EMR

Автор Анна Вичуговав категории Flink, Блог

развертывание Flink Kubernetes AWS EMR, Apache Flink Kubernetes Amazon, Apache Flink DevOps Kubernetes, Flink Kubernetes, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, как можно развернуть контейнерные приложения Apache Flink для обработки больших объемов данных в реальном времени. В продолжение этой темы сегодня сравним развертывание Flink-заданий в Kubernetes и в кластере AWS EMR. Flink-приложение в Kubernetes: преимущества и недостатки Apache Flink — это мощный фреймворк с открытым исходным кодом для...

02Мар
2023

MLOps для Spark-приложений в AWS с Amazon SageMaker: кейс Udemy

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

MLOps Spark Python PySpark AWS Sahemaker примиеры курсы обучение, машинное обучение примеры Spark курсы, MLOps-инженер примеры курсы обучение, курсы Spark ML, Школа Больших Данных Учебный центр Коммерсант

Как MLOps-инженеры платформы онлайн-курсов Udemy ускорили цикл разработки и внедрения проектов машинного обучения, используя возможности Amazon SageMaker для создания и отладки Spark-приложений в удаленном облачном кластере. MLOps на AWS Чтобы воспользоваться преимуществами бесшовной интеграции процессов разработки и развертывания машинного обучения согласно концепции MLOps, совсем не обязательно выстраивать собственную платформу из...

20Дек
2022

Каталоги, хранилища и витрины данных: принципы, практики и инструменты проектирования

Автор Анна Вичуговав категории Greenplum, Блог

каталоги витрины и хранилища данных дата-архитектура примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Хотя современная аналитика больших данных чаще базируется на Data Lake, Data Mesh, Delta Lake и DeltaLakeHouse, многие компании до сих пор активно используют классические витрины и хранилища. Разбираем особенности этих архитектур, а также оцениваем их применимость к текущим потребностям бизнеса. Витрины и хранилища данных Витрина данных (Data Mart) предоставляет информацию...

19Дек
2022

Оптимизация Apache Spark на платформе Databricks

Автор Анна Вичуговав категории Spark, Блог

Spark SQL примеры курсы обучение, Spark Databricks кейсы, AWS S3 Apache Spark, Coalesce vs Repartition Apache Spark, Spark для дата-инженеров и разработчиков, практическое обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и разработчиков распределенных приложений, сегодня разберем опыт ИТ-компании Similarweb, где Apache Spark на платформе Databricks вместо AWS Athena ускорил пакетную обработку данных в 50 раз. Также рассмотрим приемы повышения производительности ODBC-драйвера Databricks для улучшенного взаимодействия с озерами данных. Постановка задачи и ограничения POC для...

13Дек
2022

Автомасштабирование и развертывание Apache Flink в GCP

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка и развертывание примеры обучение , Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков Flink-приложений рассмотрим, как связаны диспетчеры задач и заданий, зачем настраивать автоматическое масштабирование кластера и как это сделать с помощью Google Auto Scaler в облачной инфраструктуре этого провайдера. Роль диспетчера заданий в Apache Flink и механизмы отказоустойчивости Apache Flink — отличный фреймворк создания приложений...

12Дек
2022

Как перевести кластер Apache Spark от YARN в Kubernetes: пошаговый план

Автор Анна Вичуговав категории Spark, Блог

Spark Kubernetes Yarn, курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes курсы обучение, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение курсы, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Учитывая рост интереса к DevOps-инструментам, сегодня рассмотрим, зачем переводить кластер Apache Spark, управляемый YARN, в Kubernetes, и как это сделать наиболее эффективно. А также разберем, какие системные метрики контейнерных Spark-приложений надо отслеживать и с помощью каких средств. Зачем переводить кластер Apache Spark от YARN на Kubernetes Apache Spark не зря...

01Дек
2022

Чтение и запись файлов в Google Cloud Storage с Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Data Lake ETL Apache Spark примеры курсы обучение, озеро данных HDFS Google Cloud Storage ETL Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про чтение данных из AWS S3 с помощью PySpark-задний. Продолжая разбираться, как перейти от HDFS к облачным объектным хранилищам, сегодня рассмотрим пример чтения и записи файлов из Google Cloud Storage с помощью Apache Spark. От HDFS к GCS Распределенная файловая система Apache Hadoop (HDFS) уже много лет...

28Ноя
2022

MLOps c BentoML, MLflow и Kubeflow: автоматическое развертывание ML-модели

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS Kubeflow MLflow CI CD BentoML Yatai примеры курсы обучение, MLflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для DevOps-инженеров и специалистов по Machine Learning еще более полезными, сегодня рассмотрим, как автоматизировать развертывание и обслуживание ML-моделей согласно концепции MLOps с помощью GitLab CI/CD, BentoML, Yatai, MLflow и Kubeflow. BentoML для CI в MLOPS При развертывании ML-модели необходимо учитывать следующие аспекты: как была построена модель...

19Ноя
2022

Трудности выбора в MLOps: оркестрация ML-конвейеров с Vertex AI Pipelines и Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

MLOps курсы примеры обучение, ML-инженерия обучение примеры, Google vertex AI Pipelines примеры сравнение MLOps; обучение AirFlow, курсы AirFlow администратор кластера, AirFlow vs Google Vertex AI Pipelines примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Мы уже сравнивали MLflow и Kubeflow, которые позволяют управлять конвейерами машинного обучения. Продолжая эту важную для ML-инженера тему, сегодня рассмотрим 2 других MLOps-инструмента для оркестрации конвейеров Machine Learning: Vertex AI Pipelines и Apache AirFlow. Что такое Vertex AI Pipelines от Google Поскольку цель концепции MLOps в том, чтобы объединить разработку...

23Сен
2022

Безопасность архитектуры данных: проблемы Data Mesh и их решения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Data Mesh cybersecurity архитектура данных примеры курсы обучение, безопасность архитектуры данных, безопасность озера данных, безопасность Data Lake Mesh DWH, обучение ИТ-архитекторов Big Data, Школа Больших Данных Учебный Центр Коммерсант

Data Mesh воплощает децентрализованный подход к построению распределенной архитектуры данных. При всех достоинствах этой модели, которая совмещает потоковую и пакетную парадигмы обработки данных, она еще довольно незрелая и имеет ряд недостатков. Одним из них является проблема с информационной безопасностью, что мы и рассмотрим далее для обучения ИТ-архитекторов и дата-инженеров. Безопасность...

18Сен
2022

Трудности перехода: миграция данных с HDFS на MinIO

Автор Анна Вичуговав категории Блог, Цифровая трансформация

MinIO HDFS озеро данных примеры курсы обучение, MinIO vs HDFS примеры курсы обучение, Hadoop HDFS Data Lake озеро данных примеры курсы обучение, курсы дата-инженеров озеро данных Apache Spark Hive MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO. Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS. Зачем переходить на MinIO Хотя HDFS до сих пор активно используется во многих Big Data проектах...

17Сен
2022

Apache Kafka vs AWS Kinesis: сходства и отличия

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka vs AWS Kinesis, Kafka для архитекторов и разработчиков, архитектура данных обучение примеры курсы, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В связи с активным переходом от локальной ИТ-инфраструктуры в облачные полностью управляемые сервисы многие ИТ-архитекторы и дата-инженеры задумываются о замене собственного кластера Apache Kafka ее Cloud-альтернативами. Читайте, что общего у Apache Kafka с AWS Kinesis, чем они отличаются и какую платформу выбрать для потоковой передачи событий. Потоковая обработка событий с...

11Сен
2022

Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных Kafka пример, потоковая обработка событий с Apache Kafka Примеры курсы обучение, Apache Kafka Для дата-архитекторов и инженеров данных курсы обучение, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения. Архитектурный дизайн Архитектуры, основанные на событиях, обеспечивают гибкость интеграции, масштабируемость и некоторые возможности...