Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

08Ноя
2022

Асинхронное программирование в ML-системах

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение python примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, ML Python, ML MLOps Machine Learning, Machine Learning Python MLOps примеры курсы обучение, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Поскольку концепция MLOps стремится устранить разрывы между разработкой ML-модели и ее имплементацией в эффективный программный код, сегодня поговорим про важную идею программирования, связанную с синхронностью и асинхронностью вызовов. Что такое асинхронное программирования, зачем это нужно в Machine Learning и какие Python-библиотеки поддерживают это. Проблемы синхронных вызовов в ML-системах В реальных...

07Ноя
2022

ТОП-7 проблем с платформами данных и способы их обойти

Автор Анна Вичуговав категории Блог, Статьи

архитектура данных примеры курсы обучение, ETL Data Lake Delta Lake инженерия данных примеры курсы обучение, инженер данных архитектор платформы данных обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных. 7 главных проблем с платформами данных Обычно каждая data-driven компания органично развивает свои платформы данных, усложняя их архитектуры. Но этот процесс эволюционного...

06Ноя
2022

Гибкая десериализация сообщений в Apache Kafka: от JSON к AVRO и наоборот

Автор Анна Вичуговав категории Kafka, Блог

сериализация и десериализация сообщений Kafka, Kafka курсы примеры обучение, обучение большим данным, Kafka реестр схем примеры курсы обучение, Apache Kafka для дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сериализацию и десериализацию данных в Apache Kafka. Продолжая эту важную для обучения дата-инженеров и разработчиков распределенных приложений тему, рассмотрим особенности преобразования и валидации сообщений в JSON-формате, а также поговорим про автоматическую идентификацию формата сообщения. Сериализация и десериализация данных в Apache Kafka Выполняя роль интеграционной платформы, Apache...

05Ноя
2022

Spark Connect: тонкий клиент от Databricks

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Примеры курсы обучение, Spark Connect от Databricks, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В июле 2022 года на конференции Data and AI Summit компания Databricks представила новый проект для экосистемы Apache Spark под названием Spark Connect. Что это такое и как оно пригодится разработчикам распределенных приложений и дата-инженерам, читайте далее. Что не так с Apache Spark и зачем нужен новый проект Databricks Появившись...

04Ноя
2022

Динамическое изменение DAG Apache AirFlow через файл с плоской структурой

Автор Анна Вичуговав категории AirFlow, Блог

DAG AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Дата-инженеры часто сталкиваются с изменением структуры конвейера обработки данных в Apache AirFlow, например, когда добавляются новые источники или приемники данных. Однако, менять DAG каждый раз при изменении внешних условий довольно утомительно. Читайте далее, как автоматизировать реорганизацию DAG, используя JSON, YAML-файл или другую плоскую структуру данных для хранения динамической конфигурации рабочего...

03Ноя
2022

Обратное давление в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi примеры курсы обучение backpressure обратное давление, обучение дата-инженеров, инженер данных NiFI примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров по Apache NiFi еще более полезными, сегодня мы рассмотрим, что такое обратное давление и как этот механизм используется при потоковой обработке данных. Также поговорим про визуализацию back pressure в GUI, математические модели прогнозирования пороговых значения и настройку конфигураций. Что такое обратное давление в потоковой...

01Ноя
2022

Почему глубокому обучению не обойтись без MLOps

Автор Анна Вичуговав категории Machine Learning, Блог

глубокое обучение Deep Learning примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, вывод ML в production, ML MLOps Deep Learning Machine Learning, Deep Learning vs Machine Learning, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем, что такое глубокое обучение и почему MLOps очень важен для этих методов Machine Learning. В чем особенности обучающих данных для моделей Deep Learning и зачем дополнять типовые MLOps-инструменты собственными разработками, избегая вредных антипаттернов. Машинное обучение vs Deep Learning: разница для MLOps Создание ML-систем сводится не только к разработке...

31Окт
2022

Как перейти от Apache Hive к Iceberg: стратегии миграции данных

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive vs Iceberg, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Iceberg dalta Lake, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали, как дата-инженеры Airbnb перевели аналитические нагрузки корпоративного озера данных с Apache Hive на Iceberg и Spark. Продолжая разговор про эти фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg. Зачем уходить с Apache Hive на Iceberg и как это сделать Напомним,...

30Окт
2022

Как оптимизировать приложения Apache Flink в production: 5 советов инженеру

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка и развертывание примеры обучение , Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и разработчиков приложений потоковой аналитики больших данных рассмотрим, на что следует обратить внимание при развертывании Apache Flink в реальных проектах. Обработка опоздавших данных, тонкости сериализации, проблемы неравномерного распределения и большие состояния заданий. Обработка опоздавших данных в Apache Flink В потоковой обработке данных, которую поддерживает...

29Окт
2022

Как использовать цепи Маркова для анализа моделей рекламной атрибуции

Автор Анна Вичуговав категории Machine Learning, Блог

примеры Data Science Google Colab pandas networkx matplotlib примеры курсы обучение, цепи Маркова примеры в реальном бизнесе, ципе маркова в рекламе и маркетинге, курсы Data Science примеры обучение, анализ больших данных графа Networkx Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, что такое цепь Маркова, как это используется в практических приложениях Data Science и с помощью каких инструментов реализуется этот граф состояний. В продолжение этой полезной для обучения дата-аналитиков темы посмотрим на модели маркетинговой атрибуции как на марковские цепи и разберем пользу этого представления. Практический пример в Google...