Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

03Янв
2021

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени, Big Data, Kafka, Spark, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, SQL, Hive, Hadoop, Amazon Web Services, AWS Kinesis

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы понять, как это работает на практике, рассмотрим кейс маркетинговой ИТ-компании MIQ, которая запускает Spark-приложения на платформе Qubole и сервисах Amazon,...

02Янв
2021

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Spark SQL, Delta Lake, Data Lake, Data Lake, Hadoop, HDFS, DBIO commit-protocol for Spark transactions by Databricks, курсы Hadoop, обучение Apache Hadoop

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big Data решений, компания Databricks, разработала собственный алгоритм. Читайте далее про сравнение протоколов фиксации заданий в Spark-приложениях: результаты оценки производительности и...

30Дек
2020

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в облако с локального кластера. Читайте далее, как найти компромисс между безопасностью и высокой производительностью, а также чем облачные хранилища отличаются...

28Дек
2020

Большая разница: чем структурированная потоковая передача в Apache Spark отличается от Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

курсы по Apache Spark, Spark SQL, Apache Spark Structured Streaming, обучение Spark SQL, Apache Spark Для аналитиков и разработчиков Big Data, Big Data, Большие данные, обработка данных, Spark, SQL, Spark SQL, Hadoop

В этой статье рассмотрим, что такое Apache Spark Structured Streaming и Spark Streaming, чем они отличаются и что общего между этими 2-мя способами обработки потоковых данных в самом популярном фреймворке аналитики больших данных. Читайте далее, как микро-пакетная передача приближается к режиму реального времени и при чем здесь структуры данных для...

25Дек
2020

Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Apache Spark, exactly once, Spark SQL, Apache Spark Structured Streaming, обучение Spark SQL, Apache Spark Для аналитиков и разработчиков Big Data, Big Data, Большие данные, обработка данных, Spark, SQL, Spark SQL, Hadoop, HDFS

Вчера мы говорили про реализацию exactly once семантики доставки сообщений в Apache Spark Structured Streaming. Сегодня рассмотрим, что не так с размером компактных файлов для хранения контрольных точек потоковой передачи, какие параметры конфигурации Spark SQL отвечают за такое логирование и как ускорить микро-пакетную обработку больших данных и чтение результатов выполнения...

24Дек
2020

Только сегодня и только сейчас: как устроена строго однократная доставка сообщений в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Недавно мы рассматривали оптимизацию SQL-запросов и выполнение JOIN-операций в Apache Spark. Сегодня поговорим, что обеспечивает строго однократную семантику доставку сообщений (exactly once) в этом Big Data фреймворке и как на это влияют особенности микро-пакетной обработки больших данных с помощью заданий Spark Structured Streaming. Особенности exactly once доставки сообщений в Apache...

23Дек
2020

Как работает Join в Apache Spark SQL: краткий ликбез для начинающих

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Join Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Развивая наши новые курсы по Apache Spark, сегодня мы рассмотрим Join-операции в SQL-модуле этого популярного фреймворка для аналитики больших данных. Читайте далее, чем отличаются разные Join-соединения друг от друга, как они реализуются в Spark SQL, какие существуют механизмы для их выполнения и от чего зависит выбор того или иного способа...

21Дек
2020

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

курсы по Spark, Spark MLLib, машинное обучение в Apache Spark, курсы по машинному обучению и большим данным, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Python, PySpark

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning pipeline, как он работает с кодом на Scala, Java, Python и R, а также каковы условия практического использования методов fit(),...

17Дек
2020

Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization, обработка данных, большие данные, Big Data, PySpark, архитектура, Spark, SQL

Продолжая разбирать практические особенности аналитики больших данных с Apache Spark, сегодня рассмотрим возможности оптимизации SQL-запросов в этом Big Data фреймворке с помощью механизмов предикатного и проекционного сжатия. Читайте далее про реализацию Predicate Pushdown и Projection Pushdown в Apache Spark 3, а также их связь с форматами Parquet и AVRO. Механизмы...

16Дек
2020

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено,...

14Дек
2020

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем...

01Дек
2020

5 лучших практик работы с кэшем в Apache Spark SQL

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark, обучение Spark, обработка данных, большие данные, Big Data, Spark, программирование, SQL, Spark SQL

Продолжая рассказывать про курсы Apache Spark для разработчиков на практических примерах, сегодня рассмотрим, как кэширование данных позволяет оптимизировать распределенные вычисления в этом Big Data фреймворке. Читайте далее, как ускорить выполнение запросов в Spark SQL, чем отличаются функции cache() и persist(), из чего состоит план запроса и каковы альтернативы кэшированию данных...

26Ноя
2020

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных - одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру...

18Ноя
2020

Как очистить большие данные для Apache Spark SQL: краткий обзор Cleanframes

Автор Анна Вичуговав категории Spark, Блог

обработка данных, большие данные, Big Data, Spark, SQL, курсы по Spark SQL, обучение Apache Spark

Поскольку курсы по Apache Spark нужны не только разработчикам распределенных приложений, но и аналитикам больших данных с дата-инженерами, сегодня мы рассмотрим, какие средства этого фреймворка позволяют выполнять очистку данных и повышать их качество. Читайте далее, что такое Cleanframes в Spark SQL, чем полезна эта библиотека и каковы ее ограничения. Apache...

17Ноя
2020

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий...

16Ноя
2020

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества...

05Ноя
2020

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data...

04Ноя
2020

Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Hadoop, обучение Hadoop, курсы Spark, обучение Spark, Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность

В этой статье рассмотрим архитектуру и принципы работы системы хранения, аналитической обработки и визуализации больших данных на базе компонентов Hadoop, таких как Apache Spark, Hive, Tez, Ranger и Knox, развернутых в облачном Google-сервисе Dataproc. Читайте далее, как подключить к этим Big Data фреймворкам BI-инструменты Tableau и Looker, а также что обеспечивает...

26Окт
2020

Как работает SQL в Apache NiFi: потоковая обработка Big Data с помощью структурированных запросов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

обработка данных, большие данные, Big Data, NiFi, ETL, SQL, Impala, курсы по Apache NiFi, обучение инженеров Data Flow, курсы дата-инженеров, обучение инженеров Big Data

Сегодня рассмотрим, как можно фильтровать потоки больших данных в Apache NiFi через типовой механизм SQL-запросов. Читайте далее, чем эта ETL-платформа стриминговой маршрутизации Big Data отличается от других систем, которые используют язык структурированных запросов вне СУБД, какие процессоры позволяют работать с потоковыми файлами (FlowFile) как с таблицами базы данных и при...

16Окт
2020

Stateful vs Stateless в потоковой обработке Big Data на примере Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

курсы по Apache Spark, обучение Spark Streaming, Spark, обработка данных, большие данные, Big Data, SQL, Python, Hadoop, HDFS

Сегодня поговорим про сохранение состояний при потоковой обработке больших данных с помощью Apache Spark и рассмотрим особенности Structured Streaming в новой версии этого популярного Big Data фреймворка. Читайте далее про Stateless и Stateful приложений в реальном времени, управление состояниями, связь DStream с RDD и UI в Spark Structured Streaming. Состояния в...