От ETL до EtLT: эволюция в архитектуре конвейеров обработки данных

Как развивалась архитектура конвейеров обработки данных, что такое EtLT и почему этот подход почему постепенно заменяет классические ETL и ELT-инструменты. Краткая история развития современной дата-инженерии....

Многоуровневое хранилище в Apache Kafka: разбираемся с KIP-405

Что представляет собой очередное предложение по улучшению проекта Apache Kafka, которое расширяет возможности этой распределенной платформы потоковой передачи событий, превращая ее в средство долговременного хранения...

Где лучше запустить Flink-приложение: Kubernetes vs AWS EMR

Мы уже писали, как можно развернуть контейнерные приложения Apache Flink для обработки больших объемов данных в реальном времени. В продолжение этой темы сегодня сравним развертывание...

MLOps для Spark-приложений в AWS с Amazon SageMaker: кейс Udemy

Как MLOps-инженеры платформы онлайн-курсов Udemy ускорили цикл разработки и внедрения проектов машинного обучения, используя возможности Amazon SageMaker для создания и отладки Spark-приложений в удаленном облачном...

Каталоги, хранилища и витрины данных: принципы, практики и инструменты проектирования

Хотя современная аналитика больших данных чаще базируется на Data Lake, Data Mesh, Delta Lake и DeltaLakeHouse, многие компании до сих пор активно используют классические витрины...

Поиск по сайту