Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

20Апр
2022

Бесплатный митап «Установка Apache Spark — это просто»

Автор Анна Вичуговав категории Новости, Статьи

Школа Больших Данных продолжает серию митапов по Apache Spark. Второй митап состоится 11 мая в 17:00 МСК по теме «Установка Apache Spark - это просто». Митап проводит специализированный учебный центр по технологиям Big data — Школа Больших данных. https://bigdataschool.ru За 2 часа митапа будет немного теории и много практики -...

20Апр
2022

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как применять библиотеку Python Fire для оркестрации, а также планирования запуска batch-заданий. Зачем нам CLI или что не так с PythonOperator...

19Апр
2022

Автор administratorв категории Machine Learning, Блог

Рекомендательные системы на python: что под капотом?

Практически на каждом маркетплейсе есть раздел с рекомендованными товарами, фильмами, объявлениями и т.д. Сервисы аудиокниг предлагают пользователям обратить внимание на определенные аудиокниги, которые выбираются исходя из предпочтений пользователя. Площадки с объявлениями стремятся показать наиболее интересные для пользователя объявления в разделе рекомендаций. Примеры есть практически на каждом интернет ресурсе. Давайте разберемся...

18Апр
2022

2 подхода к динамической фильтрации потоковых данных в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink для инженеров данных, инженерия данных с Apache Flink Spark, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Как изменять правила фильтрации данных без перезапуска потокового Flink-приложения: практический пример для разработчиков и дата-инженеров. Чем подход с ключами состояний отличается от широковещательных соединений, каковы достоинства и недостатки этих альтернатив. Фильтрация данных в статике и динамике Практически каждая платформа потоковой передачи событий позволяет использовать фильтрацию операторов для отбора данных согласно...

17Апр
2022

Практический MLOps: 4 стратегии развертывания систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Сегодня рассмотрим наиболее распространенные в MLOps стратегии развертывания, т.е. подходы к внедрению моделей машинного обучения в производство. Выбор стратегии зависит от бизнес-требований и от контекста применения результатов ML-моделирования. Какие бывают стратегии и как они реализуются: краткий ликбез с примерами для ML-инженеров и MLOps-специалистов. Пакетное прогнозирование и веб-сервисы для MLOps Это...

16Апр
2022

NLP в Neo4j с Cypher: простой пример

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j курсы примеры обучение Data Science, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про рекомендательную систему американской медиа-компании Meredith Corporation на основе графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Продолжая эту тему в рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как построить простой рекомендательный движок с помощью выражений и операторов языка запросов Cypher...

15Апр
2022

Модульное тестирование Kafka-приложений

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, тестирование Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka еще полезнее, сегодня разберем, как тестировать распределенные приложения на базе этой платформы потоковой обработки событий. Краткий ликбез для разработчика Kafka Streams и дата-инженера: классы, методы и приемы модульных тестов с примерами. Ликбез по модульному тестированию: что такое mock-объекты Про виды тестирования мы уже...

14Апр
2022

Как связать Greenplum и Hadoop: интеграция c PXF

Автор Анна Вичуговав категории Greenplum, Hive, Блог

Hadoop Greenplum integration PXF, Hadoop Greenplum PXF курсы примеры обучение интеграция, Hadoop для дата-инженеров примеры курсы обучение, Greenplum для инженеров данных примеры курсы обучение, Greenplum HDFS, Школа БОльших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами команд. Интеграция Greenplum и Hadoop через PXF-коннекторы Мы уже писали, что представляет собой интеграционный фреймворк PXF (Platform Extension Framework), который...

14Апр
2022

Бесплатный митап «Apache Spark за 2 часа — для нетерпеливых»

Автор Анна Вичуговав категории Новости, Статьи

курсы по Spark, Apache Spark для начинающих открытый тест, обучение больших данных, большие данные, основы Big Data бесплатный тест

Школа Больших Данных запускает серию митапов по Apache Spark. Первый состоится 20 апреля по теме «Apache Spark за 2 часа - для нетерпеливых». Митап рассчитан на инженеров данных, разработчиков и просто интересующихся: научимся использовать основную абстракцию Spark - датафреймы - за 2 часа. Неплохо немного знать python, но это необязательно. Во время митапа...

13Апр
2022

От Derby к Hive: хранилище метаданных для Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Spark Hive дата-инженер, курсы инженер данных, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить от Apache Derby к Hive и как это сделать: краткий ликбез с примерами для обучения дата-инженеров и разработчиков распределенных приложений....

12Апр
2022

Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

NiFi ETL pipeline пример курсы обучение, процессоры NiFi ETL, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, data pipeline Apache NiFi example, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Продолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров Apache NiFi. Такой кейс актуален для многих предприятий, которым необходимо мигрировать с сервисов Amazon в другие хранилища больших данных. Перенос...

11Апр
2022

Бессерверный Apache Spark в Google Dataproc

Автор Анна Вичуговав категории AirFlow, Spark, Блог

обучение дата-инженеров, курсы инженер данных, инженерия данных Spark AirFlow, обучение Apache Spark AirFlow курсы примеры, развертывание Spark AirFlow в облаке Google, Школа Больших Данных Учебный Центр Коммерсант

Недавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и Dataproc стало еще сложнее. Блеск и нищета Google Dataproc Напомним, Google Dataproc – это облачный Hadoop, который работает аналогично другим...

10Апр
2022

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Анна Вичуговав категории AirFlow, Блог

запуск AirFlow в Kubernetes, AirFlow примеры курсы обучение, развертывание AirFlow в Kubernetes, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы DevOps AirFlow Kubernetes , Школа Больших Данных Учебный Центр Коммерсант

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий и трудностей. Сегодня рассмотрим, как обойти их с помощью service-mesh проекта с открытым исходным кодом Istio, какие проблемы могут при...

09Апр
2022

Как реестр схем помогает снизить нагрузку на запись сообщений в топики Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Schema Registry реестр схем Kafka Confluent примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, микросервисная архитектура Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое реестр схема Apache Kafka и зачем он нужен. Чтобы глубже разобраться с этой темой, важной для обучения разработчиков распределенных приложений и дата-инженеров, сегодня заглянем под капот Schema Registry и разберем работу этого компонента платформы Confluent Apache Kafka с продюсерами и потребителями. Еще раз про реестр...

08Апр
2022

MLOps и тестирование систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

Поскольку разработка и развертывание ML-систем отличаются от традиционного ПО, о чем мы писали здесь и здесь, процесс тестирования модели машинного обучения тоже имеет свою специфику, которую учитывает концепция MLOps. Читайте далее, что и как тестировать при разработке систем Machine Learning, а также при чем здесь подход Arrange-Act-Assert. MLOps и тестирование...

07Апр
2022

Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Автор Анна Вичуговав категории Greenplum, Блог

PostgreSQL Arenadata, обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata авторизованные курсы цена стоимость обучение сертификацияпримеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» - разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков к специфике корпоративного использования и предоставляет русскоязычную поддержку 24/7. Что такое Arenadata Postgres, кому и зачем нужен этот продукт, и...

06Апр
2022

Как улучшить рекомендательную систему с Neo4j: кейс Meredith

Автор Анна Вичуговав категории Neo4j, Блог

Развивая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим американского медиаконгломерат Meredith Corporation по персонализации пользовательских профилей с помощью графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Постановка задачи: сложности идентификации анонимных клиентов Различными контент-продуктами конгломерата Meredith Corporation ежемесячно пользуется более 180 миллионов человек через приложения,...

05Апр
2022

Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache...

04Апр
2022

ETL с Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

Чтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить уведомление о результатах с готовыми процессорами NiFi. Постановка задачи: ETL-конвейер тревел-приложения В качестве примера рассмотрим корпоративное приложение для путешественников, которое...

03Апр
2022

Широковещательное соединение в Apache Spark SQL: ликбез и примеры

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL, курсы Spark SQL, примеры Spark SQL, BROADCAST JOIN Spark SQL, хинты Spark SQL, оптимизация запросов Spark SQL, Spark SQL для аналитиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах Spark SQL, а также краткий ликбез по подсказкам или хинтам. Что такое широковещательное соединение в Apache Spark SQL Распределенная природа...