Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

19Янв
2021

Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Сегодня рассмотрим особенности запуска приложений Apache Kafka Streams для потоковой обработки больших данных с отслеживанием состояния в кластере Kubernetes. Читайте далее, в чем проблема управления stateful-приложениями Kafka Streams в Kubernetes и как ее решает контроллер StatefulSet. Что обеспечивает хранение состояний в Apache Kafka Streams Напомним, Kafka Streams – это легковесная...

18Янв
2021

Что такое представления и почему они так важны для Impala

Автор Сергей Ушаковв категории NoSql, Блог

Impala, курсы hadoop, обучение impala hadoop

В этой статье мы поговорим про работу с представлениями в Apache Impala. Также рассмотрим структуру представлений в этой SQL-подобной распределенной СУБД, входящей в экосистему Hadoop. Читайте далее про особенности работы с представлениями в Impala, которые делают эту СУБД весьма удобным и мощным средством хранения и обработки Big Data. Как работает...

18Янв
2021

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это...

15Янв
2021

CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обработка данных, большие данные, Big Data, архитектура, Kafka, SQL

В этой статье поговорим про интеграцию данных с помощью CDC-подхода и репликацию SQL-таблиц из корпоративной СУБД в несколько разных удаленных хранилищ в реальном времени с применением Apache Kafka и Debezium, развернутых в Kafka Connect и Confluent Cloud. Постановка задачи: CDC с Big Data в реальном времени Рассмотрим кейс, который часто...

15Янв
2021

Как работают пользовательские функции в Apache Hive

Автор Сергей Ушаковв категории Hive, NoSql, Блог

Hive, курсы по hive, обучение hadoop, курсы hadoop hive

В прошлый раз мы говорили про виды таблиц для быстрой работы с Big Data в Apache Hive. Сегодня поговорим про создание пользовательских функций и их применение в Hive. Читайте далее про особенности создания и применения UDF для работы с Big Data в распределенной платформе Apache Hive. Что такое пользовательские функции...

14Янв
2021

А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы

Автор Анна Вичуговав категории Kafka, Тесты

обучение Apache Kafka, курсы Apache Kafka, тест по Apache Kafka, бесплатный открытый тест по Apache Kafka, вопросы по Apache Kafka, обучение большим данным, интерактивный тест по Big data Для начинающих, основы Apache Kafka вопросы для проверки знаний

Чтобы сделать ваше самостоятельное обучение Apache Kafka и прочим технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам открытый интерактивный тест по этой платформе потоковой обработки событий. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного...

13Янв
2021

Конкурс для айтишников от Rusbase и ВТБ

Автор Andrey Sokolovв категории Статьи

IT-индустрия сделала многое во время пандемии, чтобы скрасить жизнь тех, кто оказался на самоизоляции. Все эти месяцы мы работали из дома, устраивали конфколлы, смотрели сериалы и заказывали доставку продуктов. Теперь настало время поблагодарить всех тех, кто помог нам пережить пандемию. Rusbase и ВТБ хотят узнать у айтишников, что им нужно...

12Янв
2021

А можно дешевле: снижаем стоимость аналитики Big Data в приложениях Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Apache Spark, курсы Apache Spark, курсы Big Data, обучение Большие данные, курсы Spark для разработчиков Big Data, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для разработчиков и инженеров данных

Вчера мы говорили про ускорение аналитики больших данных в конвейере из множества заданий Apache Spark. Продолжая речь про обучение инженеров данных, сегодня рассмотрим, как снизить стоимость выполнения Spark-приложений, сократив накладные расходы на обработку Big Data и повысив эффективность использования кластерной инфраструктуры. Экономика Big Data систем: распределенная разработка и операционные затраты...

11Янв
2021

Ускоряем конвейеры Apache Spark: 3 простых способа

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Big Data, обучение Большие данные, курсы Spark SQL, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для инженеров данных

Сегодня рассмотрим несколько простых способов ускорить обработку больших данных в рамках конвейера задач Apache Spark. Читайте далее про важность тщательной оценки входных и выходных данных, рандомизацию рабочей нагрузки Big Data кластера и замену JOIN-операций оконными функциями. Оптимизируй это: почему конвейеры аналитической обработки больших данных с Apache Spark замедляются Обычно со...

10Янв
2021

Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности миграции и как их решить. Читайте далее про сохранение кастомизированных настроек, тонкости работы с базой метаданных и конфигурацию для развертывания...