Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

31Мар
2021

Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS

Автор Анна Вичуговав категории Spark, Блог

курсы Hadoop, курсы Spark, Hadoop Spark HDFS AWS S3, обучение разработчиков и инженеров данных Hadoop Spark, Школа Больших ДАнных Учебный центр Коммерсант

В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS S3 не дает гарантий согласованности как HDFS, из-за чего S3Guard не обеспечивает транзакционность и как настроить коммиттеры S3A для Spark...

30Мар
2021

Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, Spark RDD DataFrame DataSet, AS S3 Spark UDF Hadoop, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать курсы Hadoop и Spark для инженеров данных еще более интересными, сегодня мы рассмотрим кейс фудтех-компании iFood - лидера рынка доставки еды в странах Латинской Америки. Читайте далее, в чем проблема быстрых операций со множеством файлов в облачном хранилище Amazon S3 и как ее решить с помощью префиксов корзины...

29Мар
2021

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Spark, курсы дата-инженеров, обучение инженеров Big Data, оптимизация затрат на AWS, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, предиктивная аналитика, AirFlow, ETL

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020, дата-инженеры которой смогли всего за 3 недели развернуть террабайтные ETL-конвейеры в AWS с AirFlow и Spark на Kubernetes без глубокой...

26Мар
2021

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, Hadoop

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным способам оптимизации Спарк-приложений, сегодня разберем, как инженеру Big Data ускорить их при запуске на платформе K8s. Как ускорить Spark-приложения на...

19Мар
2021

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Анна Вичуговав категории Spark, Блог

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены другие полезные обновления. Читайте далее, почему развертывание Spark на Kubernetes стало еще проще, как реализуется плавное завершение работы узла без...

18Мар
2021

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Анна Вичуговав категории Spark, Блог

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить Спарк-задание в кластер Кубернетес и почему это сэкономит затраты на вашу инфраструктуру аналитики больших данных, не повысив производительность отдельных приложений,...

11Мар
2021

От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, озеро данных, Data Lake

Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45 странах, предлагая выгодные билеты на европейские поезда и автобусы. Читайте далее, почему пакетный режим работы озера данных перестал отвечать требованиям...

10Мар
2021

Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков, Delta Lake, Databricks Google Cloud, Big Data

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps,...

09Мар
2021

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Kafka, обучение Кафка, курсы инженеров данных, курсы Spark, обучение Apache Spark, big data pipeline on Apache Kafka and Spark

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и других технологий Big Data. Читайте далее о преимуществах облачного Delta Lake от Databricks над традиционным Data Lake. Постановка задачи: финансовая...

04Мар
2021

Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров

Автор Анна Вичуговав категории Spark, Use Cases, Блог

ETL pipeline Spark, курсы по Spark, Apache Spark для инженеров данных курсы обучение, экономика больших данных, Big Data AWS Spark Livy

Дополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру данных пригодятся SaaS-продукт Prophecy.io, движок StreamSets Transformer и REST-интерфейс Apache Livy, а также как все они связаны со Spark. 3...