Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

31Авг
2022

Идеальная облачная среда озера данных и DaaS: возможности и риски

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH Data Lake озеро данных архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, дата-инженерия Data Lake обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски. 7 преимуществ развертывания Data Lake в облаке При том, что Data Lake...

28Авг
2022

Data Mesh + Lakehouse на BigQuery: новая архитектура BigLake от Google

Автор Анна Вичуговав категории Spark, Блог

Data Lake LakeHouse BigQuery BigLake DWH архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, Школа Больших Данных Учебный Центр Коммерсант

В отличие от каменных зданий, архитектуры данных постоянно меняются. Сегодня рассмотрим новую архитектурную модель под названием BigLake, выпущенную Google весной 2022 года. Что это такое, как устроено, чем похоже на Lakehouse, озеро данных и Data Mesh, а также чем от них отличается и какую пользу несет для конвейеров аналитики Big...

27Авг
2022

MLflow vs Kubeflow: битва MLOps-инструментов

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, от каких факторов зависит выбор подходящего MLOps-инструмента. В продолжение этой темы сегодня специально для ML-инженеров разберем сходства и различия двух самых популярных MLOps-решений: что общего у MLflow и Kubeflow, чем они отличаются и в каких случаях выбирать тот или иной инструмент. Краткий обзор 2-х самых популярных MLOps-решений...

18Авг
2022

MLOps и ТОП-5 практик работы с MLflow

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, MLflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для специалистов по Machine Learning еще более интересными, сегодня рассмотрим 5 лучших практик по использованию популярного MLOps-инструмента. Как Data Scientist может работать с MLflow и сделать свои конвейеры машинного обучения еще более эффективными. Компоненты Mlflow для разработки и развертывания ML-систем Сегодня MLOps считается одним из самых...

13Авг
2022

Битва ETL-инструментов: AWS Step Functions vs. Apache Airflow

Автор Анна Вичуговав категории AirFlow, Блог

AWS Step Functions vs. Apache Airflow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, тестирование DAG airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров сравним популярный ETL-оркестратор Apache AirFlow с облачным бессерверным сервисом от AWS под названием Step Functions. Оба этих решения представляют собой workflow-сервисы, которые позволяют автоматизировать бизнес-процессы и упростить процедуры дата-инженерии. Читайте далее, что между ними общего и чем они отличаются, а также какой из них...

09Авг
2022

От чего зависит выбор MLOps-инструментов: 3 главных фактора

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, курсы по цифровизации, обучение цифровизации, машинное обучение и аналитика больших данных для руководителей курсы, курс по машинному обучению для менеджеров, автоматизация машинного обучения, Machine Learning Operations, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для специалистов по Machine Learning рассмотрим, от каких факторов зависит выбор MLOps-средств и как сделать его наиболее верным способом. Когда развертывание продукта с открытым исходным кодом или индивидуального решения на собственной инфраструктуре лучше готового инструмента в облаке и почему часто бывает наоборот. 3 главных фактора выбора MLOps-решений...

30Июл
2022

Как сделать ETL-конвейеры Spark-заданий в AWS EMR на 50% дешевле: кейс Duolingo

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как Cluster Autotuner от Sync для автонастройки кластера Spark в AWS EMR помог edtech-компании Duolingo снизить затраты на 55%. Полезный сервис для дата-инженера и администратора кластера, чтобы устранить неэффективную ручную настройку, обеспечив оптимальную стоимость, производительность и надежность распределенных вычислений без изменения кода. Дорогой Apache Spark на AWS EMR Duolingo –...

30Апр
2022

Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Автор Анна Вичуговав категории Kafka, Блог

проектирование и отладка Kafka приложений примеры курсы обучение, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, FMECA для Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про идентификацию и обработку отказов в Kafka-приложениях с помощью простого, но эффективного метода теории надежности. Что такое FMECA-анализ, как его проводить...

11Апр
2022

Бессерверный Apache Spark в Google Dataproc

Автор Анна Вичуговав категории AirFlow, Spark, Блог

обучение дата-инженеров, курсы инженер данных, инженерия данных Spark AirFlow, обучение Apache Spark AirFlow курсы примеры, развертывание Spark AirFlow в облаке Google, Школа Больших Данных Учебный Центр Коммерсант

Недавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и Dataproc стало еще сложнее. Блеск и нищета Google Dataproc Напомним, Google Dataproc – это облачный Hadoop, который работает аналогично другим...

05Апр
2022

Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache...