Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

12Ноя
2022

Как применить триггеры Apache Spark Structured Streaming для пакетных заданий

Автор Анна Вичуговав категории Spark, Блог

озеро данных, архитектура данных Delta Lake Spark, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Можно ли применять Apache Spark Structured Streaming для пакетных заданий и в каких случаях это целесообразно. Разбираемся, как устроена потоковая передача событий в Spark Structured Streaming, с какой частотой разные режимы триггеров микропакетной обработки данных запускают потоковые вычисления и что выбрать дата-инженеру. Потоковая передача событий и пакетные задания: versus или...

11Ноя
2022

Что такое Py2neo: Python вместо Cypher в приложениях с Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Cypher Python Py2neo, обучение Neo4j курсы примеры, Neo4j Python для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой для аналитики больших данных аналитике больших данных, сегодня познакомимся с клиентской Python-библиотекой Neo4j под названием Py2neo, которая позволяет отказаться от языка запросов Cypher. Читайте далее, что это такое, как работает и где пригодится. Python вместо Cypher в приложениях для Neo4j Манипуляции с...

10Ноя
2022

Под капотом источников данных Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink data source Примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка больших данных с Apache Flink обучение примеры курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Flink еще более полезными для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных, сегодня разберем, как работают источники данных потоковой обработки на примере топиков Kafka. Источники данных в Apache Flink Наряду с Apache Spark, Flink также является популярным фреймворком пакетной и потоковой обработки...

08Ноя
2022

Асинхронное программирование в ML-системах

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение python примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, ML Python, ML MLOps Machine Learning, Machine Learning Python MLOps примеры курсы обучение, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Поскольку концепция MLOps стремится устранить разрывы между разработкой ML-модели и ее имплементацией в эффективный программный код, сегодня поговорим про важную идею программирования, связанную с синхронностью и асинхронностью вызовов. Что такое асинхронное программирования, зачем это нужно в Machine Learning и какие Python-библиотеки поддерживают это. Проблемы синхронных вызовов в ML-системах В реальных...

07Ноя
2022

ТОП-7 проблем с платформами данных и способы их обойти

Автор Анна Вичуговав категории Блог, Статьи

архитектура данных примеры курсы обучение, ETL Data Lake Delta Lake инженерия данных примеры курсы обучение, инженер данных архитектор платформы данных обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных. 7 главных проблем с платформами данных Обычно каждая data-driven компания органично развивает свои платформы данных, усложняя их архитектуры. Но этот процесс эволюционного...

06Ноя
2022

Гибкая десериализация сообщений в Apache Kafka: от JSON к AVRO и наоборот

Автор Анна Вичуговав категории Kafka, Блог

сериализация и десериализация сообщений Kafka, Kafka курсы примеры обучение, обучение большим данным, Kafka реестр схем примеры курсы обучение, Apache Kafka для дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сериализацию и десериализацию данных в Apache Kafka. Продолжая эту важную для обучения дата-инженеров и разработчиков распределенных приложений тему, рассмотрим особенности преобразования и валидации сообщений в JSON-формате, а также поговорим про автоматическую идентификацию формата сообщения. Сериализация и десериализация данных в Apache Kafka Выполняя роль интеграционной платформы, Apache...

05Ноя
2022

Spark Connect: тонкий клиент от Databricks

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Примеры курсы обучение, Spark Connect от Databricks, Spark Connect для дата-инженеров и разработчиков, обучение Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В июле 2022 года на конференции Data and AI Summit компания Databricks представила новый проект для экосистемы Apache Spark под названием Spark Connect. Что это такое и как оно пригодится разработчикам распределенных приложений и дата-инженерам, читайте далее. Что не так с Apache Spark и зачем нужен новый проект Databricks Появившись...

04Ноя
2022

Динамическое изменение DAG Apache AirFlow через файл с плоской структурой

Автор Анна Вичуговав категории AirFlow, Блог

DAG AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Дата-инженеры часто сталкиваются с изменением структуры конвейера обработки данных в Apache AirFlow, например, когда добавляются новые источники или приемники данных. Однако, менять DAG каждый раз при изменении внешних условий довольно утомительно. Читайте далее, как автоматизировать реорганизацию DAG, используя JSON, YAML-файл или другую плоскую структуру данных для хранения динамической конфигурации рабочего...

03Ноя
2022

Обратное давление в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi примеры курсы обучение backpressure обратное давление, обучение дата-инженеров, инженер данных NiFI примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров по Apache NiFi еще более полезными, сегодня мы рассмотрим, что такое обратное давление и как этот механизм используется при потоковой обработке данных. Также поговорим про визуализацию back pressure в GUI, математические модели прогнозирования пороговых значения и настройку конфигураций. Что такое обратное давление в потоковой...

01Ноя
2022

Почему глубокому обучению не обойтись без MLOps

Автор Анна Вичуговав категории Machine Learning, Блог

глубокое обучение Deep Learning примеры курсы, MLOPS примеры курсы обучение, курсы Data Science, вывод ML в production, ML MLOps Deep Learning Machine Learning, Deep Learning vs Machine Learning, курсы Data Scince, Machine Learning обучение примеры, машинное обучение MLOps, Machine Learning курсы Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем, что такое глубокое обучение и почему MLOps очень важен для этих методов Machine Learning. В чем особенности обучающих данных для моделей Deep Learning и зачем дополнять типовые MLOps-инструменты собственными разработками, избегая вредных антипаттернов. Машинное обучение vs Deep Learning: разница для MLOps Создание ML-систем сводится не только к разработке...

31Окт
2022

Как перейти от Apache Hive к Iceberg: стратегии миграции данных

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive vs Iceberg, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Iceberg dalta Lake, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали, как дата-инженеры Airbnb перевели аналитические нагрузки корпоративного озера данных с Apache Hive на Iceberg и Spark. Продолжая разговор про эти фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg. Зачем уходить с Apache Hive на Iceberg и как это сделать Напомним,...

30Окт
2022

Как оптимизировать приложения Apache Flink в production: 5 советов инженеру

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка и развертывание примеры обучение , Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и разработчиков приложений потоковой аналитики больших данных рассмотрим, на что следует обратить внимание при развертывании Apache Flink в реальных проектах. Обработка опоздавших данных, тонкости сериализации, проблемы неравномерного распределения и большие состояния заданий. Обработка опоздавших данных в Apache Flink В потоковой обработке данных, которую поддерживает...

29Окт
2022

Как использовать цепи Маркова для анализа моделей рекламной атрибуции

Автор Анна Вичуговав категории Machine Learning, Блог

примеры Data Science Google Colab pandas networkx matplotlib примеры курсы обучение, цепи Маркова примеры в реальном бизнесе, ципе маркова в рекламе и маркетинге, курсы Data Science примеры обучение, анализ больших данных графа Networkx Python Google Colab примеры курсы обучение, анализ больших данных на графах примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, что такое цепь Маркова, как это используется в практических приложениях Data Science и с помощью каких инструментов реализуется этот граф состояний. В продолжение этой полезной для обучения дата-аналитиков темы посмотрим на модели маркетинговой атрибуции как на марковские цепи и разберем пользу этого представления. Практический пример в Google...

28Окт
2022

Под капотом Apache Kafka: разбираемся с файлами хранения и механизмами обработки данных

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka архитектура и принципы работы примеры курсы обучение, потоковая обработка событий Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши практические курсы по Apache Kafka еще более полезными, сегодня рассмотрим, в каких файлах хранятся сообщения, смещения и состояния продюсера, а также функции работы с ними для потоковой передачи событий. Средства обработки и хранения данных в Apache Kafka Прежде, чем погружаться в тонкости хранения данных в Apache Kafka,...

27Окт
2022

Ошибки обновления таблиц в Delta Lake и их решения с Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Сегодня мы продолжим говорить про Apache Spark Structured Streaming и его применение для обновления данных в таблицах Delta Lake. А также на практических примерах разберем, как выполняются основные операции работы с данными средствами Spark Structured Streaming API. Таблицы в Delta Lake Delta Lake – это уровня хранилища данных с открытым...

26Окт
2022

Обновление Apache AirFlow : самое важное для дата-инженера и администратора

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow инженерия данных, дата-инженер примеры курсы обучение AirFlow, инженерия данных примеры курсы обучение, ETL-процессы курсы, Apache AirFlow обновление, администратор кластера Apache AirFlow примеры курсы кейсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера Apache AirFlow рассмотрим, как обновить этот ETL-планировщик, используя концепцию сине-зеленого развертывания. Также рассмотрим, с какими ошибками можно столкнуться, выполняя миграцию базы данных метаданных и как их решить. Сине-зеленое развертывание для обновления AirFlow Как и любое программное обеспечение, Apache AirFlow нужно периодически...

24Окт
2022

Построение MLOps-платформы с открытыми инструментами

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение инструменты, примеры MLOps курсы обучение, курсы по цифровизации, обучение цифровизации, машинное обучение и аналитика больших данных для руководителей курсы, курс по машинному обучению для менеджеров, автоматизация машинного обучения, Machine Learning Operations, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как реализовать полноценный MLOps-цикл, используя свободные инструменты с открытым исходным кодом: MLflow, Kubeflow, Seldon, Streamlit, AirFlow, Git, Prometheus и Grafana. Процессы жизненного цикла ML-систем Концепция MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров машинного обучения в производственной среде, устраняя рост технического долга в ML-проектах....

23Окт
2022

Идемпотентность приложений Apache Spark Structured Streaming в Delta Lake

Автор Анна Вичуговав категории Spark, Блог

архитектура данных Delta Lake Spark, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Продолжая недавний разговор про Apache Spark Structured Streaming, сегодня рассмотрим, как этот движок потоковой обработки данных помогает дата-инженеру реализовать идемпотентную запись в таблицы Delta Lake, а также выполнить операции слияния и обновления/вставки в помощью метода foreachBatch(). Идемпотентность потоковых приложений Apache Spark Идемпотентность – важное свойство распределенных систем, которое гарантирует, что...

21Окт
2022

Масштабируемая шина событий на Apache Kafka для анализа пользовательского поведения в Whatnot

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka примеры курсы обучение, потоковая обработка событий Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как дата-инженеры маркетплейса Whatnot масштабировали потоковую обработку данных с помощью Apache Kafka, изменив свои ETL-процессы и реализовав на этой распределенной платформе шину событий для анализа пользовательского поведения c ksqlDB и Rockset. Постановка задачи: события пользовательского поведения в Whatnot Whatnot – это маркетплейс, пользователи которого могут покупать и продавать...

20Окт
2022

Строго однократная доставка сообщений в потоковой обработке данных с Apache Flink и Kafka

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink exactly once примеры обучение оконные функции, Flink Kafka примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Как Apache Flink реализует строго однократную доставку событий в потовой обработке данных с помощью контрольных точек для записи данных в реляционную базу, используя функцию TwoPhasedCommitSink(), основанную на механизме согласованных snapshot’ов 35-летней давности и Kafka Transaction API. Трудности строго однократной доставки в потоковой обработке данных Распределенная обработка потоков с отслеживанием состояния...