Цифровая трансформация

18Фев
2024

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....

04Май
2023

Блеск и нищета микросервисной архитектуры для платформы данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

микросервисы в Big Data, архитектура данных, архитектура платформы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем проблемы микросервисной архитектуры для платформ данных и способы их решения, а также вспомним 5 популярных шаблонов развертывания, которые могут смягчить риски от внедрения новых версий многокомпонентной системы. Проблемы микросервисной архитектуры для платформы данных и способы их решения При всех плюсах микросервисной архитектуры (автономность, гибкость, масштабируемость, простота развертывания, технологическая...

07Апр
2023

7 критериев выбора потоковой базы данных

Автор Анна Вичуговав категории NoSql, Блог, Цифровая трансформация

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, СУБД NoSQL потоковая передача, NoSQL курсы примеры обучение, event streaming курсы примеры обучение, архитектура данных курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковая аналитика больших данных, какие бывают СУБД потоковой передачи, когда и зачем их использовать, а также что влияет на выбор этих инструментов хранения и аналитической обработки Big Data. Что такое потоковые базы данных и как они работают Мы уже упоминали, что аналитика данных в реальном времени может быть...

30Янв
2023

Целостность и качество данных: ACID и транзакции в мире Big Data

Автор Анна Вичуговав категории Блог, Цифровая трансформация

качество и целостность больших данных, архитектура данных, ETL и Data Management, Big Data Quality, инженерия качества данных, процессы и инструменты обеспечения качества больших данных, ACID в распределенных транзакциях, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Чем целостность данных отличается от их качества и как реализуются ACID-свойства распределенных транзакций в Big Data системах. Разбираем понятия и технологии, важные для обучения ИТ-архитекторов и дата-инженеров. Целостность и качество данных: versus или вместе? Целостность данных и качество данных — связанные, но разные понятия, важные для дата-инженера. Целостность описывает точность...

20Янв
2023

CDC для ETL-процессов в озеро данных: принципы работы, паттерны и ограничения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Захват измененных данных считается довольно известным паттерном организации ETL-процессов для корпоративных хранилищ и озер данных. Как реализуется CDC-технология, по каким шаблонам, что их ограничивает и чем опасен дрейф изменений в Change Data Capture. Паттерны и принципы реализации захвата измененных данных Эффективность эксплуатации озера данных зависит от ETL-процессов, поскольку объемы данных...

15Ноя
2022

Мю-модель: новая ML-подобная архитектура данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Архитектура данных Мю Лямбда Каппа Data fabric Data Mesh курсы примеры обучение, архитектор Big Data курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Что не так с конвейерной моделью обработки данных и почему архитектура Data Mesh с потоковой передачей событий не решают всех проблем пакетной парадигмы. Зачем нужна новая архитектура данных под названием Мю, какие инструменты и принципы она использует для устранения технологической неоднородности отдельных технологий Big Data, а также при чем здесь...

13Окт
2022

DWH по Кимбаллу и Data Mesh

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH проектирование архитектуры данных Data Mesh, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Все архитекторы DWH и многие дата-инженеры знакомы с идеями Ральфа Кимбалла, согласно которым хранилище данных — это сочетание множества различных витрин данных, облегчающих отчетность и анализ важных бизнес-показателей. Читайте далее, как реализовать этот подход при проектировании корпоративного хранилища данных и при чем здесь Data Mesh. КХД по Кимбаллу: доменные витрины...

01Окт
2022

Оптимизация аналитических рабочих нагрузок в транзакционных системах с Data Mesh

Автор Анна Вичуговав категории Блог, Цифровая трансформация

аналитика больших данных примеры курсы обучение, архитектура данных, Data Mesh примеры курсы обучение, курсы ИТ-архитекторов, обучение архитекторов Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше полезных материалов, сегодня рассмотрим, как модернизировать аналитические рабочие нагрузки в транзакционных системах с помощью гибридной архитектуры Data Mesh. А также поговорим о том, как реализовать этот подход с организационной и технической точек зрения. Аналитика и транзакции: versus или вместе?...

24Сен
2022

Под капотом Process Mining: графовая аналитика для анализа бизнес-процессов

Автор Анна Вичуговав категории Блог, Цифровая трансформация

PM4Py Data Science примеры курсы обучение, PM4Py Google Colab пример, PM4Py Process Mining Примеры курсы обучение, процессная аналитика, аналитика бизнес-процессов средствами Data Science, Data Mining Process Mining, обучение анализу данных, графовая аналитика больших данных, графовые алгоритмы в бизнесе, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим тему анализа и оптимизации бизнес-процессов средствами графовой аналитики больших данных. Как устроены информационные системы класса Process Mining, где еще применяются эти идеи и другие приложения теории графов в бизнесе на примере Python-библиотеки PM4Py. Что такое Process Mining Чтобы понять, как выполняется процесс, бизнес-аналитик строит его схему в виде подробной EPC...

23Сен
2022

Безопасность архитектуры данных: проблемы Data Mesh и их решения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Data Mesh cybersecurity архитектура данных примеры курсы обучение, безопасность архитектуры данных, безопасность озера данных, безопасность Data Lake Mesh DWH, обучение ИТ-архитекторов Big Data, Школа Больших Данных Учебный Центр Коммерсант

Data Mesh воплощает децентрализованный подход к построению распределенной архитектуры данных. При всех достоинствах этой модели, которая совмещает потоковую и пакетную парадигмы обработки данных, она еще довольно незрелая и имеет ряд недостатков. Одним из них является проблема с информационной безопасностью, что мы и рассмотрим далее для обучения ИТ-архитекторов и дата-инженеров. Безопасность...

18Сен
2022

Трудности перехода: миграция данных с HDFS на MinIO

Автор Анна Вичуговав категории Блог, Цифровая трансформация

MinIO HDFS озеро данных примеры курсы обучение, MinIO vs HDFS примеры курсы обучение, Hadoop HDFS Data Lake озеро данных примеры курсы обучение, курсы дата-инженеров озеро данных Apache Spark Hive MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO. Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS. Зачем переходить на MinIO Хотя HDFS до сих пор активно используется во многих Big Data проектах...

11Сен
2022

Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных Kafka пример, потоковая обработка событий с Apache Kafka Примеры курсы обучение, Apache Kafka Для дата-архитекторов и инженеров данных курсы обучение, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения. Архитектурный дизайн Архитектуры, основанные на событиях, обеспечивают гибкость интеграции, масштабируемость и некоторые возможности...

31Авг
2022

Идеальная облачная среда озера данных и DaaS: возможности и риски

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH Data Lake озеро данных архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, дата-инженерия Data Lake обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски. 7 преимуществ развертывания Data Lake в облаке При том, что Data Lake...

13Июл
2022

Как устроено Lakehouse: архитектура и принципы работы

Автор Анна Вичуговав категории Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, Data Lake DWh LakeHouse примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про новую гибридную архитектуру Lakehouse, которая объединяет лучше из мира озер и хранилищ данных. Сегодня разберем принципы работы и особенности построения этой архитектуры данных, включая технологии ее реализации с точки зрения дата-инженера и уделим внимание организации конвейеров аналитики больших данных. Архитектурная парадигма Lakehouse Напомним, Lakehouse — это...

07Июл
2022

Мониторинг микросервисов с Apache Kafka, Jaeger и OpenTelemetry

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, мониторинг и трассировка распределенных систем DevOps Big Data примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и архитекторов распределенных систем рассмотрим, что такое наблюдаемость, как ее измерить и при чем здесь стандарт OpenTelemetry. А в качестве примера разберем, как французский маркетплейс Cdiscount управляет почти 1000 микросервисов в кластере Kubernetes с Apache Kafka, Jaeger, Elasticsearch и OpenTelemetry. Наблюдаемость распределенной системы: стандарт...

02Июл
2022

DWH + Data Lake или что такое LakeHouse

Автор Анна Вичуговав категории Блог, Цифровая трансформация

В рамках обучения дата-инженеров и архитекторов корпоративных платформ и приложений аналитики больших данных, сегодня рассмотрим, что такое LakeHouse. Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты. Историческая справка: от DWH к Data Lake...

23Июн
2022

Что такое наблюдаемость данных и как ее обеспечить

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DataOps Примеру курсы кейсы обучение, цифровизация примеру курсы кейсы обучение, цифровая трансформация управление данными примеры ркурсы обучение, большие данные для руководителей, наблюдаемость данных, обучение дата-инженеров курсы, дата-инженер курсы обучениеи, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, почему наблюдаемость данных так важная для проектов Big Data, какие компоненты обеспечивают ценную информацию о качестве и надежности данных, чем это похоже на DataOps, а также как эти идеи реализовать на практике с использованием популярных инструментов современной дата-инженерии. Почему важна наблюдаемость данных Цифровизация предполагает управление на основе качественных...

09Июн
2022

Data Fabric и Data Mesh: versus или вместе?

Автор Анна Вичуговав категории Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, Школа Больших Данных Учебный Центр Коммерсант

В недавней статье про современные архитектуры данных мы упоминали Data Fabric и Data Mesh. Сегодня поговорим про эти стратегии Data Governance более подробно: разберем их главные достоинства и недостатки, основные сходства и принципиальные отличия, ключевые вызовы и технологии реализации, а также возможности совместного применения на практике. Что такое Data Fabric...

23Мар
2022

Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года - проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....