Публикации с меткойБольшие данные

02Янв
2021

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Spark SQL, Delta Lake, Data Lake, Data Lake, Hadoop, HDFS, DBIO commit-protocol for Spark transactions by Databricks, курсы Hadoop, обучение Apache Hadoop

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big Data решений, компания Databricks, разработала собственный алгоритм. Читайте далее про сравнение протоколов фиксации заданий в Spark-приложениях: результаты оценки производительности и...

30Дек
2020

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в облако с локального кластера. Читайте далее, как найти компромисс между безопасностью и высокой производительностью, а также чем облачные хранилища отличаются...

28Дек
2020

Большая разница: чем структурированная потоковая передача в Apache Spark отличается от Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

курсы по Apache Spark, Spark SQL, Apache Spark Structured Streaming, обучение Spark SQL, Apache Spark Для аналитиков и разработчиков Big Data, Big Data, Большие данные, обработка данных, Spark, SQL, Spark SQL, Hadoop

В этой статье рассмотрим, что такое Apache Spark Structured Streaming и Spark Streaming, чем они отличаются и что общего между этими 2-мя способами обработки потоковых данных в самом популярном фреймворке аналитики больших данных. Читайте далее, как микро-пакетная передача приближается к режиму реального времени и при чем здесь структуры данных для...

25Дек
2020

Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Apache Spark, exactly once, Spark SQL, Apache Spark Structured Streaming, обучение Spark SQL, Apache Spark Для аналитиков и разработчиков Big Data, Big Data, Большие данные, обработка данных, Spark, SQL, Spark SQL, Hadoop, HDFS

Вчера мы говорили про реализацию exactly once семантики доставки сообщений в Apache Spark Structured Streaming. Сегодня рассмотрим, что не так с размером компактных файлов для хранения контрольных точек потоковой передачи, какие параметры конфигурации Spark SQL отвечают за такое логирование и как ускорить микро-пакетную обработку больших данных и чтение результатов выполнения...

24Дек
2020

Только сегодня и только сейчас: как устроена строго однократная доставка сообщений в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Недавно мы рассматривали оптимизацию SQL-запросов и выполнение JOIN-операций в Apache Spark. Сегодня поговорим, что обеспечивает строго однократную семантику доставку сообщений (exactly once) в этом Big Data фреймворке и как на это влияют особенности микро-пакетной обработки больших данных с помощью заданий Spark Structured Streaming. Особенности exactly once доставки сообщений в Apache...

23Дек
2020

Как работает Join в Apache Spark SQL: краткий ликбез для начинающих

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Join Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Развивая наши новые курсы по Apache Spark, сегодня мы рассмотрим Join-операции в SQL-модуле этого популярного фреймворка для аналитики больших данных. Читайте далее, чем отличаются разные Join-соединения друг от друга, как они реализуются в Spark SQL, какие существуют механизмы для их выполнения и от чего зависит выбор того или иного способа...

21Дек
2020

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

курсы по Spark, Spark MLLib, машинное обучение в Apache Spark, курсы по машинному обучению и большим данным, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Python, PySpark

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning pipeline, как он работает с кодом на Scala, Java, Python и R, а также каковы условия практического использования методов fit(),...

17Дек
2020

Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Продолжая разбирать практические особенности аналитики больших данных с Apache Spark, сегодня рассмотрим возможности оптимизации SQL-запросов в этом Big Data фреймворке с помощью механизмов предикатного и проекционного сжатия. Читайте далее про реализацию Predicate Pushdown и Projection Pushdown в Apache Spark 3, а также их связь с форматами Parquet и AVRO. Механизмы...

16Дек
2020

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено,...

14Дек
2020

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем...

13Дек
2020

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

инженерия больших данных, обучение инженеров данных, курсы по инженерии Big Data, курсы Hadoop, курсы Spark, курсы Hive, курсы HBase, обучение Hadoop, обучение Spark, обучение Hive, обучение HBase,Big Data, Большие данные, обработка данных, архитектура, DataOps, Spark, DevOps, Hadoop, Hive, HBase, ETL

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать его наиболее эффективным образом. В качестве практического примера рассмотрим кейс британской компании кибербезопасности Panaseer, которой удалось в 10 раз сократить...

10Дек
2020

5 советов по потоковой аналитике больших данных с Apache Kafka и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Apache Kafka, обучение Spark Streaming. Интеграция Kafka и Spark, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Hadoop

В продолжение вчерашнего материала про потоковую аналитику больших данных с Apache Kafka и Spark, сегодня рассмотрим особенности совместного использования этих технологий Big Data. В этой статье мы собрали для вас 5 лучших практик эффективного применения Apache Kafka и Spark Streaming для разработки распределенных приложений аналитики больших данных в режиме реального...

09Дек
2020

Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, курсы Hadoop, обучение Hadoop, обучение инженеров данных, курсы дата-инженеров, инженерия больших данных, обработка данных, большие данные, Big Data, Kafka, архитектура, Data Lake, HBase, Hive, Spark, Hadoop, машинное обучение, Machine Learning, ETL

Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой системы на базе Apache Kafka, Spark, HBase и Hive, а также почему большинство ETL-инструментов не подходят для потоковой передачи событий...

08Дек
2020

Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, Обучение Apache Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Storm, Cassandra, Kubernetes, облака, DevOps

Чтобы добавить в наш новый курс по Apache Kafka для разработчиков еще больше практических примеров, сегодня мы приготовили для вас кейс немецкой железнодорожной компании Deutsche Bahn AG. Читайте далее, почему приложения Kafka Streams заменили Apache Storm и как крупнейшая транспортная компания Германии построила собственную информационную платформу на базе Apache Kafka,...

07Дек
2020

Что такое GraphQL и как это использовать в разработке приложений Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka, Kafka обуение для разработчиков, обработка данных, большие данные, Big Data, Kafka, архитектура, GraphQL, REST API

В рамках продвижения нашего нового курса Apache Kafka для разработчиков недавно мы рассматривали RESTful API к этой Big Data платформе потоковой обработки событий на примере Confluent REST Proxy. Сегодня разберем альтернативу REST-интерфейсам в виде GraphQL и применимости этой технологии к разработке распределенных Kafka-приложений. Что такое GraphQL и чем он лучше...

05Дек
2020

Чем хорош REST Proxy для Apache Kafka и что с ним не так: ключевые достоинства и недостатки RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Обучение Apache Kafka, Apache Kafka Для разработчиков, обработка данных, большие данные, Big Data, Python, архитектура, RESTful API Kafka, What is Confluent REST Proxy Apache Kafka

Продолжая разбираться с Confluent REST Proxy для Apache Kafka, сегодня рассмотрим основные достоинства и недостатки этого RESTful API. Читайте далее, что Confluent REST Proxy позволяет делать с Apache Kafka и что ограничивает его взаимодействие с самой популярной Big Data платформой потоковой обработки событий. 6 главных преимуществ RESTful API к...

04Дек
2020

Что такое REST Proxy к Apache Kafka: разбираемся с RESTful API от Confluent

Автор Анна Вичуговав категории Kafka, Блог

В этой статье разберем, что такое Confluent REST Proxy для Apache Kafka, как работает этот RESTful API, каким образом он связан с облачным сервисом этой популярной Big Data платформой потоковой обработки событий, а также при чем здесь Schema Registry. Основы Confluent REST Proxy для Apache Kafka Широко известная в области...

03Дек
2020

Как удаленному сервису достучаться к Apache Kafka по HTTP: REST API

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Сегодня поговорим про обучение Apache Kafka и рассмотрим сценарии применения HTTP и RESTful протоколов в этой Big Data платформе потоковой обработки событий. Читайте далее, чем парадигма request-response отличается от event streaming processing, как связаны REST и HTTP, каковые преимущества RESTful API и где это используется на практике для обработки и...

01Дек
2020

5 лучших практик работы с кэшем в Apache Spark SQL

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark, обучение Spark, обработка данных, большие данные, Big Data, Spark, программирование, SQL, Spark SQL

Продолжая рассказывать про курсы Apache Spark для разработчиков на практических примерах, сегодня рассмотрим, как кэширование данных позволяет оптимизировать распределенные вычисления в этом Big Data фреймворке. Читайте далее, как ускорить выполнение запросов в Spark SQL, чем отличаются функции cache() и persist(), из чего состоит план запроса и каковы альтернативы кэшированию данных...

30Ноя
2020

Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Apache Spark, обучение Spark, курсы по PySpark, обучение Python, курсы Python, обучение PySpark, курсы для разработчиков больших данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark

Говоря про обучение Apache Spark для разработчиков, сегодня мы рассмотрим, как быстро конвертировать Python-скрипты в задания PySpark и какие конфигурационные параметры при этом нужно настроить, чтобы эффективно использовать все возможности распределенных вычислений над большими данными (Big Data). Читайте далее, чем отличаются датафреймы в Pandas и Apache Spark, для чего нужны...