Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

31Авг
2022

Идеальная облачная среда озера данных и DaaS: возможности и риски

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH Data Lake озеро данных архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, дата-инженерия Data Lake обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски. 7 преимуществ развертывания Data Lake в облаке При том, что Data Lake...

30Авг
2022

Абсолютно безопасно: PEM-аутентификация Apache Kafka по REST API

Автор Анна Вичуговав категории Kafka, Блог

безопасность Kafka пример, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения дата-инженеров и администраторов кластера Apache Kafka, сегодня разберем, как обеспечить безопасность клиента этой распределенной платформы потоковой передачи событий по REST API с помощью возможностей открытого ПО. Что такое PEM-файлы и при чем здесь SSL-сертификаты, а также другие криптографические средства защиты данных: кейс инженеров Expedia Group. Инструменты обеспечения...

29Авг
2022

Динамическое партиционирование в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений рассмотрим, что такое динамическое партиционирование таблиц в Apache Spark, зачем это нужно и как реализовать такие вставки разделов. Разбираем на практическом примере. Что такое динамическое партиционирование в Apache Spark Партиционирование – это разделение данных на основе значения столбца и их сохранение...

28Авг
2022

Data Mesh + Lakehouse на BigQuery: новая архитектура BigLake от Google

Автор Анна Вичуговав категории Spark, Блог

Data Lake LakeHouse BigQuery BigLake DWH архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, Школа Больших Данных Учебный Центр Коммерсант

В отличие от каменных зданий, архитектуры данных постоянно меняются. Сегодня рассмотрим новую архитектурную модель под названием BigLake, выпущенную Google весной 2022 года. Что это такое, как устроено, чем похоже на Lakehouse, озеро данных и Data Mesh, а также чем от них отличается и какую пользу несет для конвейеров аналитики Big...

27Авг
2022

MLflow vs Kubeflow: битва MLOps-инструментов

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, от каких факторов зависит выбор подходящего MLOps-инструмента. В продолжение этой темы сегодня специально для ML-инженеров разберем сходства и различия двух самых популярных MLOps-решений: что общего у MLflow и Kubeflow, чем они отличаются и в каких случаях выбирать тот или иной инструмент. Краткий обзор 2-х самых популярных MLOps-решений...

26Авг
2022

Оконные операции в Apache Flink: краткий ликбез для дата-инженера

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache Flink для дата-инженеров и разработчиков распределенных приложений еще более полезными, сегодня рассмотрим, как этот фреймворк потоковой аналитики больших данных реализует концепцию оконных функций. Жизненный цикл окна, ключевые понятия и оконные операции Apache Flink, управляемые данными и временем. Что такое окно в потоковой обработке данных...

25Авг
2022

Рефакторинг графа c Liquibase и APOC: блеск и нищета гибкой модели данных Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j APOC Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, APOC Liquibase Neo4j обновление рефакторинг примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня разберем сложности рефакторинга графовых моделей в Neo4j и способы их обхода с помощью библиотеки APOC и плагина Liquibase. Что такое Liquibase и как Data Scientist и аналитик данных могут использовать его совместно с Neo4j. Гибкость модели данных и трудности...

24Авг
2022

Ускорение загрузки и парсинга DAG-файлов в Apache AirFlow на Kubernetes

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow Kubernetes проблемы и решения, AirFlow Kubernetes конвейер обработки данных примеры курсы обучение, AirFlow Kubernetes примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения дата-инженеров и администраторов кластера тонкостям работы с современными инструментальными средствами оркестрации конвейеров обработки данных, сегодня рассмотрим, почему в Apache AirFlow уходит много времени на парсинг большого количества DAG-файлов и как этого избежать. Потери времени при парсинге множества DAG-файлов в Apache AirFlow Apache AirFlow часто используется в проектах...

23Авг
2022

Лебедь, рак и щука: оптимизация Apache Kafka с теоремами CAP и PACELC

Автор Анна Вичуговав категории Kafka, Блог

CAP PACELC архитектура Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, конфигурации продюсеров Kafka, Apache Kafka для разработчиков администраторов и дата-инженеров, Kafka обучение разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как найти компромисс между задержкой, пропускной способностью, долговечностью и доступностью в Apache Kafka: проблемы CAP-теоремы и поиски оптимальной стороны PACELC-ромба. Архитектурные ограничения распределенных систем и лучшие практики для настройки конфигурационных параметров для администратора кластера Apache Kafka и дата-инженера потоковых приложений аналитики больших данных. CAP-теорема и распределенные системы На производительность Apache...

22Авг
2022

LIMIT vs TABLESAMPLE: битва операторов Spark SQL

Автор Анна Вичуговав категории Spark, Блог

Сегодня рассмотрим особенности использования оператора LIMIT в Spark SQL: как он выполняется и почему вместо него лучше использовать оператор TABLESAMPLE. Для этого в рамках обучения дата-инженеров, разработчиков распределенных приложений и аналитиков данных заглянем под капот оптимизатора Catalyst в Apache Spark и сравним физические планы выполнения SQL-запросов. Недостатки оператора LIMIT в...