Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

15Апр
2022

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, тестирование Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka еще полезнее, сегодня разберем, как тестировать распределенные приложения на базе этой платформы потоковой обработки событий. Краткий ликбез для разработчика Kafka Streams и дата-инженера: классы, методы и приемы модульных тестов с примерами. Ликбез по модульному тестированию: что такое mock-объекты Про виды тестирования мы уже...

14Апр
2022

Как связать Greenplum и Hadoop: интеграция c PXF

Автор Анна Вичуговав категории Greenplum, Hive, Блог

Hadoop Greenplum integration PXF, Hadoop Greenplum PXF курсы примеры обучение интеграция, Hadoop для дата-инженеров примеры курсы обучение, Greenplum для инженеров данных примеры курсы обучение, Greenplum HDFS, Школа БОльших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами команд. Интеграция Greenplum и Hadoop через PXF-коннекторы Мы уже писали, что представляет собой интеграционный фреймворк PXF (Platform Extension Framework), который...

14Апр
2022

Бесплатный митап «Apache Spark за 2 часа — для нетерпеливых»

Автор Анна Вичуговав категории Новости, Статьи

курсы по Spark, Apache Spark для начинающих открытый тест, обучение больших данных, большие данные, основы Big Data бесплатный тест

Школа Больших Данных запускает серию митапов по Apache Spark. Первый состоится 20 апреля по теме «Apache Spark за 2 часа - для нетерпеливых». Митап рассчитан на инженеров данных, разработчиков и просто интересующихся: научимся использовать основную абстракцию Spark - датафреймы - за 2 часа. Неплохо немного знать python, но это необязательно. Во время митапа...

13Апр
2022

От Derby к Hive: хранилище метаданных для Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Spark Hive дата-инженер, курсы инженер данных, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить от Apache Derby к Hive и как это сделать: краткий ликбез с примерами для обучения дата-инженеров и разработчиков распределенных приложений....

12Апр
2022

Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

NiFi ETL pipeline пример курсы обучение, процессоры NiFi ETL, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, data pipeline Apache NiFi example, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Продолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров Apache NiFi. Такой кейс актуален для многих предприятий, которым необходимо мигрировать с сервисов Amazon в другие хранилища больших данных. Перенос...

11Апр
2022

Бессерверный Apache Spark в Google Dataproc

Автор Анна Вичуговав категории AirFlow, Spark, Блог

обучение дата-инженеров, курсы инженер данных, инженерия данных Spark AirFlow, обучение Apache Spark AirFlow курсы примеры, развертывание Spark AirFlow в облаке Google, Школа Больших Данных Учебный Центр Коммерсант

Недавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и Dataproc стало еще сложнее. Блеск и нищета Google Dataproc Напомним, Google Dataproc – это облачный Hadoop, который работает аналогично другим...

10Апр
2022

Istio для Apache Airflow в Kubernetes: проблемы и решения

Автор Анна Вичуговав категории AirFlow, Блог

запуск AirFlow в Kubernetes, AirFlow примеры курсы обучение, развертывание AirFlow в Kubernetes, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы DevOps AirFlow Kubernetes , Школа Больших Данных Учебный Центр Коммерсант

Запуск Apache Airflow с Kubernetes сегодня стал стандартом де-факто. Однако, при практическом развертывании Airflow с помощью исполнителя Kubernetes и оператора пода в кластере этой платформы оркестрации контейнерных приложений возникает множество препятствий и трудностей. Сегодня рассмотрим, как обойти их с помощью service-mesh проекта с открытым исходным кодом Istio, какие проблемы могут при...

09Апр
2022

Как реестр схем помогает снизить нагрузку на запись сообщений в топики Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Schema Registry реестр схем Kafka Confluent примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, микросервисная архитектура Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое реестр схема Apache Kafka и зачем он нужен. Чтобы глубже разобраться с этой темой, важной для обучения разработчиков распределенных приложений и дата-инженеров, сегодня заглянем под капот Schema Registry и разберем работу этого компонента платформы Confluent Apache Kafka с продюсерами и потребителями. Еще раз про реестр...

08Апр
2022

MLOps и тестирование систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Поскольку разработка и развертывание ML-систем отличаются от традиционного ПО, о чем мы писали здесь и здесь, процесс тестирования модели машинного обучения тоже имеет свою специфику, которую учитывает концепция MLOps. Читайте далее, что и как тестировать при разработке систем Machine Learning, а также при чем здесь подход Arrange-Act-Assert. MLOps и тестирование...

07Апр
2022

Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Автор Анна Вичуговав категории Greenplum, Блог

PostgreSQL Arenadata, обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata авторизованные курсы цена стоимость обучение сертификацияпримеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» - разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков к специфике корпоративного использования и предоставляет русскоязычную поддержку 24/7. Что такое Arenadata Postgres, кому и зачем нужен этот продукт, и...