Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

08Апр
2022

MLOps и тестирование систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Поскольку разработка и развертывание ML-систем отличаются от традиционного ПО, о чем мы писали здесь и здесь, процесс тестирования модели машинного обучения тоже имеет свою специфику, которую учитывает концепция MLOps. Читайте далее, что и как тестировать при разработке систем Machine Learning, а также при чем здесь подход Arrange-Act-Assert. MLOps и тестирование...

07Апр
2022

Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Автор Анна Вичуговав категории Greenplum, Блог

PostgreSQL Arenadata, обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata авторизованные курсы цена стоимость обучение сертификацияпримеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» - разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков к специфике корпоративного использования и предоставляет русскоязычную поддержку 24/7. Что такое Arenadata Postgres, кому и зачем нужен этот продукт, и...

06Апр
2022

Как улучшить рекомендательную систему с Neo4j: кейс Meredith

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j курсы примеры обучение Data Science, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Развивая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим американского медиаконгломерат Meredith Corporation по персонализации пользовательских профилей с помощью графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Постановка задачи: сложности идентификации анонимных клиентов Различными контент-продуктами конгломерата Meredith Corporation ежемесячно пользуется более 180 миллионов человек через приложения,...

05Апр
2022

Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache...

04Апр
2022

ETL с Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

NiFi ETL pipeline пример курсы обучение, процессоры NiFi ETL, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, data pipeline Apache NiFi example, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить уведомление о результатах с готовыми процессорами NiFi. Постановка задачи: ETL-конвейер тревел-приложения В качестве примера рассмотрим корпоративное приложение для путешественников, которое...

03Апр
2022

Широковещательное соединение в Apache Spark SQL: ликбез и примеры

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL, курсы Spark SQL, примеры Spark SQL, BROADCAST JOIN Spark SQL, хинты Spark SQL, оптимизация запросов Spark SQL, Spark SQL для аналитиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах Spark SQL, а также краткий ликбез по подсказкам или хинтам. Что такое широковещательное соединение в Apache Spark SQL Распределенная природа...

31Мар
2022

Самообслуживаемый ETL-конвейер с Apache Airflow и Amazon Athena: кейс hipages

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, запуск DAG по расписанию airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем опыт австралийской ИТ-компании hipages по построению самообслуживаемого ETL-конвейера с Apache Airflow и Amazon Athena, призванного обеспечить высокое качество данных и облегчить дата-инженерам управление информационными активами. Изящное решение сложных проблем управления данными с примерами SQL-запросов к корпоративному Data Lake на AWS S3. Что не так с монолитной архитектурой платформы данных...

30Мар
2022

MLOps-конвейер с MLFlow: CI/CD для модели машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сложности разработки и развертывания ML-систем и способы их решения с помощью концепции MLOps. Продолжая эту тему, важную для обучения специалистов по Data Science, аналитиков и инженеров данных, сегодня рассмотрим основные некоторые преимущества фреймворка MLFlow для создания надежных конвейеров CI/CD в системах машинного обучения. CI/CD в MLOps...

29Мар
2022

Apache NiFi Flow Design System: назначение и возможности

Автор Анна Вичуговав категории NiFi, Блог

NiFi Flow Design System, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, модули Apache NiFi, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Продвигая наши курсы для дата-инженеров и администраторов кластера Apache NiFi, сегодня рассмотрим, что такое Flow Design System, чем полезен этот подпроект фреймворка потокового сбора и маршрутизации больших данных и как его использовать на практике. Что такое NiFi Flow Design System NiFi Flow Design System (FDS) – это подпроект Apache NiFi,...

28Мар
2022

Apache Kafka в облаках: краткий обзор управляемых сервисов

Автор Анна Вичуговав категории Kafka, Блог

Kafka облачное развертывание курсы примеры обучение, управляемый сервис Kafka примеры Big Data, большие данные Яндекс Кафка, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В свете импортозамещения сегодня рассмотрим российские альтернативы облачных управляемых сервисов для развертывания Apache Kafka. Сравнение отечественных Yandex Managed Service for Apache Kafka и VK Cloud Solutions Big Data с зарубежным Confluent Cloud. Облачная Apache Kafka от Confluent и не только Пожалуй, самым популярным облачным сервисом Apache Kafka во всем мире...