Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

25Мар
2021

Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop

Автор Анна Вичуговав категории Use Cases, Блог

курсы Hadoop, обучение Hadoop, Hadoop для инженеров данных, администрирование кластера Hadoop, обучение основам Hadoop, Apache Hadoop основы, дистрибутивы Hadoop, сравнение дистрибутивов Hadoop

Сегодня рассмотрим особенности ухода с коммерческого дистрибутива Hadoop к версии сообщества на примере американской рекламной платформы Outbrain. Читайте далее, зачем дата-инженеры компании приняли такое решение, почему им не подошли альтернативы от MapR, Cloudera и Google Cloud Platform (DataProc), как проходила миграция на Apache Hadoop и что получилось в итоге. Предыстория:...

24Мар
2021

Как достичь дзена CAP-теоремы в распределенных микросервисах или eventual consistency с Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, курсы по Kafka, Kafka для инженеров данных, обучение Kafka, Big Data, Большие данные, Kafka Streams примеры, проблемы микросервисной архитектуры

Продолжая включать интересные практические примеры в наши курсы Apache Kafka для разработчиков, сегодня поговорим о согласованности в распределенных системах с высокой доступностью. Читайте далее, что такое eventual consistency, почему это важно для микросервисной архитектуры, при чем здесь ограничения CAP-теоремы и как решить проблемы обеспечения конечной согласованности с Kafka Streams. ...

23Мар
2021

Как построить свой OAuth с аутентификацией и авторизацией для Kafka: кейс BlackRock

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka security, безопасность кластера Кафка, настройка аутентификации и авторизации в Кафка

Чтобы сделать наши курсы по Apache Kafka еще более полезными, сегодня мы поговорим про базовые и расширенные возможности обеспечения информационной безопасности этой Big Data платформы. А в качестве практического примера разберем кейс международной финтех-компании BlackRock, которая разработала собственное security-решение для Kafka на базе протокола OAuth и серверов единого доступа KeyCloak....

22Мар
2021

Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, CDC Oracle Kafka Connector Confluent, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, Kafka Connect, Oracle Database

В феврале 2021 года разработчики корпоративной версии Apache Kafka с коммерческой поддержкой, компания Confluent, выпустили премиум-коннектор к Oracle – одной из главных реляционных баз данных мира enterprise. Разбираемся, кому и зачем это нужно, а также как устроена такая интеграция SQL-СУБД и потоковой аналитики Big Data с применением CDC-подхода. Реляционный монолит...

19Мар
2021

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены другие полезные обновления. Читайте далее, почему развертывание Spark на Kubernetes стало еще проще, как реализуется плавное завершение работы узла без...

18Мар
2021

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Анна Вичуговав категории Spark, Блог

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить Спарк-задание в кластер Кубернетес и почему это сэкономит затраты на вашу инфраструктуру аналитики больших данных, не повысив производительность отдельных приложений,...

17Мар
2021

Как повысить качество управления корпоративными данными: цифровая трансформация «Газпром нефти» с Arenadata

Автор Анна Вичуговав категории Use Cases, Блог

аналитика больших данных для руководителей, обучение Big Data с примерами, бизнес-кейсы Big Data, Big Data, Большие данные, обработка данных, Arenadata, Hadoop, ETL, цифровая трансформация, цифровизация, курсы Arenadata

В продолжение вчерашней статьи о победителях российского ИТ-конкурса «Проект Года» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», сегодня мы рассмотрим корпоративную платформу управления данными ПАО «Газпром нефть», реализованную на базе продуктов отечественного разработчика Big Data решений: Arenadata Hadoop и MPP-СУБД Arenadata DB (Greenplum). Зачем ПАО «Газпром нефть»...

16Мар
2021

Новые победы вместе с Arenadata: 3 призера конкурса «Проект Года» от GlobalCIO-2020

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Мы уже рассказывали о проектах-победителях российского ИТ-конкурса «Проект Года» профессионального сообщества GlobalCIO, представивших корпоративные решения на базе продуктов Arenadata. В 2020 году клиенты Arenadata также вошли в тройку лидеров. Читайте далее, как «Газпром нефть» и ВТБ улучшили свои процессы управления данными с помощью отечественных технологий хранения и аналитики Big Data....

15Мар
2021

Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, обучение администраторов Big Data, Hadoop кластер администратор курсы обучение, курсы хадуп администратор, администрирование Hadoop, безопасность Hadoop, Apache Ranger Hadoop course, Arenadata Hadoop кластер администратор, Arenadata авторизованные курсы, обучение Big Data, Школа Больших Данных Учебный центр Коммерсант

В январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает централизованное управление групповыми политиками безопасности кластера. Разбираемся, что представляет собой эта система, как она связана с Apache Ranger и чем...

12Мар
2021

5 советов по совместному использованию Apache Spark и PostgreSQL

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, PostgreSQL, Big Data, курсы инженеров данных, обучение дата-инженеров

В этой статье по обучению дата-инженеров и разработчиков Big Data рассмотрим, как эффективно записать большие данные в СУБД PostgreSQL с применением Apache Spark. Читайте далее, чем отличается foreach() от foreachBatch(), как это связано с количеством подключений к БД, асимметрией разделов и семантикой доставки сообщений. Как Spark-приложение записывает данные в PostgreSQL...