Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

09Дек
2020

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, курсы Hadoop, обучение Hadoop, обучение инженеров данных, курсы дата-инженеров, инженерия больших данных, обработка данных, большие данные, Big Data, Kafka, архитектура, Data Lake, HBase, Hive, Spark, Hadoop, машинное обучение, Machine Learning, ETL

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой системы на базе Apache Kafka, Spark, HBase и Hive, а также почему большинство ETL-инструментов не подходят для потоковой передачи событий...

08Дек
2020

Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Storm, Cassandra, Kubernetes, облака, DevOps

Чтобы добавить в наш новый курс по Apache Kafka для разработчиков еще больше практических примеров, сегодня мы приготовили для вас кейс немецкой железнодорожной компании Deutsche Bahn AG. Читайте далее, почему приложения Kafka Streams заменили Apache Storm и как крупнейшая транспортная компания Германии построила собственную информационную платформу на базе Apache Kafka,...

07Дек
2020

Что такое GraphQL и как это использовать в разработке приложений Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka, Kafka обуение для разработчиков, обработка данных, большие данные, Big Data, Kafka, архитектура, GraphQL, REST API

В рамках продвижения нашего нового курса Apache Kafka для разработчиков недавно мы рассматривали RESTful API к этой Big Data платформе потоковой обработки событий на примере Confluent REST Proxy. Сегодня разберем альтернативу REST-интерфейсам в виде GraphQL и применимости этой технологии к разработке распределенных Kafka-приложений. Что такое GraphQL и чем он лучше...

05Дек
2020

Чем хорош REST Proxy для Apache Kafka и что с ним не так: ключевые достоинства и недостатки RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Обучение Apache Kafka, Apache Kafka Для разработчиков, обработка данных, большие данные, Big Data, Python, архитектура, RESTful API Kafka, What is Confluent REST Proxy Apache Kafka

Продолжая разбираться с Confluent REST Proxy для Apache Kafka, сегодня рассмотрим основные достоинства и недостатки этого RESTful API. Читайте далее, что Confluent REST Proxy позволяет делать с Apache Kafka и что ограничивает его взаимодействие с самой популярной Big Data платформой потоковой обработки событий. 6 главных преимуществ RESTful API к...

04Дек
2020

Что такое REST Proxy к Apache Kafka: разбираемся с RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

В этой статье разберем, что такое Confluent REST Proxy для Apache Kafka, как работает этот RESTful API, каким образом он связан с облачным сервисом этой популярной Big Data платформой потоковой обработки событий, а также при чем здесь Schema Registry. Основы Confluent REST Proxy для Apache Kafka Широко известная в области...

03Дек
2020

Как удаленному сервису достучаться к Apache Kafka по HTTP: REST API

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Сегодня поговорим про обучение Apache Kafka и рассмотрим сценарии применения HTTP и RESTful протоколов в этой Big Data платформе потоковой обработки событий. Читайте далее, чем парадигма request-response отличается от event streaming processing, как связаны REST и HTTP, каковые преимущества RESTful API и где это используется на практике для обработки и...

26Ноя
2020

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных - одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру...

25Ноя
2020

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение инженеров данных, курсы по инженерии больших данных, Data Engineer курсы, инженер Big Data обучение, Big Data, Большие данные, обработка данных, архитектура, DataOps, DWH, Kafka, Delta Lake, Data Lake, NiFi, Spark

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным массивам Big Data, применяя передовые методы проектирования данных и реализации конвейеров их обработки. В этой статье мы собрали для вас...

24Ноя
2020

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache...

23Ноя
2020

Комбо Apache Spark и Greenplum для быстрой аналитики больших данных: разбор интеграционного коннектора

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

курсы по Apache Spark, обучение Spark, курсы по Greenplum, обучение Greenplum, курсы по Arenadata DB, обучение Arenadata DB, курсы доя инженеров данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark, Greenplum, ETL, Arenadata, архитектура

Продолжая разговор про обучение Apache Spark для инженеров данных на практических примерах, сегодня разберем, как организовать интеграцию этого Big Data фреймворка с MPP-СУБД Greenplum. В этой статье мы расскажем о коннекторе Greenplum-Spark, который позволяет эффективно связывать эти средства работы с большими данными, выстраивая аналитический конвейер их обработки (data pipeline). Типовые...