Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

17Дек

Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Продолжая разбирать практические особенности аналитики больших данных с Apache Spark, сегодня рассмотрим возможности оптимизации SQL-запросов в этом Big Data фреймворке с помощью механизмов предикатного и проекционного сжатия. Читайте далее про реализацию Predicate Pushdown и Projection Pushdown в Apache Spark 3, а также их связь с форматами Parquet и AVRO. ...

16Дек

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено,...

14Дек

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем...

13Дек

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

инженерия больших данных, обучение инженеров данных, курсы по инженерии Big Data, курсы Hadoop, курсы Spark, курсы Hive, курсы HBase, обучение Hadoop, обучение Spark, обучение Hive, обучение HBase,Big Data, Большие данные, обработка данных, архитектура, DataOps, Spark, DevOps, Hadoop, Hive, HBase, ETL

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать его наиболее эффективным образом. В качестве практического примера рассмотрим кейс британской компании кибербезопасности Panaseer, которой удалось в 10 раз сократить...

10Дек

5 советов по потоковой аналитике больших данных с Apache Kafka и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Apache Kafka, обучение Spark Streaming. Интеграция Kafka и Spark, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Hadoop

В продолжение вчерашнего материала про потоковую аналитику больших данных с Apache Kafka и Spark, сегодня рассмотрим особенности совместного использования этих технологий Big Data. В этой статье мы собрали для вас 5 лучших практик эффективного применения Apache Kafka и Spark Streaming для разработки распределенных приложений аналитики больших данных в режиме реального...

09Дек

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, курсы Hadoop, обучение Hadoop, обучение инженеров данных, курсы дата-инженеров, инженерия больших данных, обработка данных, большие данные, Big Data, Kafka, архитектура, Data Lake, HBase, Hive, Spark, Hadoop, машинное обучение, Machine Learning, ETL

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой системы на базе Apache Kafka, Spark, HBase и Hive, а также почему большинство ETL-инструментов не подходят для потоковой передачи событий...

08Дек

Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Storm, Cassandra, Kubernetes, облака, DevOps

Чтобы добавить в наш новый курс по Apache Kafka для разработчиков еще больше практических примеров, сегодня мы приготовили для вас кейс немецкой железнодорожной компании Deutsche Bahn AG. Читайте далее, почему приложения Kafka Streams заменили Apache Storm и как крупнейшая транспортная компания Германии построила собственную информационную платформу на базе Apache Kafka,...

07Дек

Что такое GraphQL и как это использовать в разработке приложений Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka, Kafka обуение для разработчиков, обработка данных, большие данные, Big Data, Kafka, архитектура, GraphQL, REST API

В рамках продвижения нашего нового курса Apache Kafka для разработчиков недавно мы рассматривали RESTful API к этой Big Data платформе потоковой обработки событий на примере Confluent REST Proxy. Сегодня разберем альтернативу REST-интерфейсам в виде GraphQL и применимости этой технологии к разработке распределенных Kafka-приложений. Что такое GraphQL и чем он лучше...

05Дек

Чем хорош REST Proxy для Apache Kafka и что с ним не так: ключевые достоинства и недостатки RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Обучение Apache Kafka, Apache Kafka Для разработчиков, обработка данных, большие данные, Big Data, Python, архитектура, RESTful API Kafka, What is Confluent REST Proxy Apache Kafka

Продолжая разбираться с Confluent REST Proxy для Apache Kafka, сегодня рассмотрим основные достоинства и недостатки этого RESTful API. Читайте далее, что Confluent REST Proxy позволяет делать с Apache Kafka и что ограничивает его взаимодействие с самой популярной Big Data платформой потоковой обработки событий. 6 главных преимуществ RESTful API к...

04Дек

Что такое REST Proxy к Apache Kafka: разбираемся с RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

В этой статье разберем, что такое Confluent REST Proxy для Apache Kafka, как работает этот RESTful API, каким образом он связан с облачным сервисом этой популярной Big Data платформой потоковой обработки событий, а также при чем здесь Schema Registry. Основы Confluent REST Proxy для Apache Kafka Широко известная в области...