Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

30Мар
2021

Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, Spark RDD DataFrame DataSet, AS S3 Spark UDF Hadoop, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать курсы Hadoop и Spark для инженеров данных еще более интересными, сегодня мы рассмотрим кейс фудтех-компании iFood - лидера рынка доставки еды в странах Латинской Америки. Читайте далее, в чем проблема быстрых операций со множеством файлов в облачном хранилище Amazon S3 и как ее решить с помощью префиксов корзины...

29Мар
2021

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Spark, курсы дата-инженеров, обучение инженеров Big Data, оптимизация затрат на AWS, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, предиктивная аналитика, AirFlow, ETL

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020, дата-инженеры которой смогли всего за 3 недели развернуть террабайтные ETL-конвейеры в AWS с AirFlow и Spark на Kubernetes без глубокой...

26Мар
2021

Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, Hadoop

Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным способам оптимизации Спарк-приложений, сегодня разберем, как инженеру Big Data ускорить их при запуске на платформе K8s. Как ускорить Spark-приложения на...

25Мар
2021

Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop

Автор Анна Вичуговав категории Use Cases, Блог

курсы Hadoop, обучение Hadoop, Hadoop для инженеров данных, администрирование кластера Hadoop, обучение основам Hadoop, Apache Hadoop основы, дистрибутивы Hadoop, сравнение дистрибутивов Hadoop

Сегодня рассмотрим особенности ухода с коммерческого дистрибутива Hadoop к версии сообщества на примере американской рекламной платформы Outbrain. Читайте далее, зачем дата-инженеры компании приняли такое решение, почему им не подошли альтернативы от MapR, Cloudera и Google Cloud Platform (DataProc), как проходила миграция на Apache Hadoop и что получилось в итоге. Предыстория:...

24Мар
2021

Как достичь дзена CAP-теоремы в распределенных микросервисах или eventual consistency с Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, курсы по Kafka, Kafka для инженеров данных, обучение Kafka, Big Data, Большие данные, Kafka Streams примеры, проблемы микросервисной архитектуры

Продолжая включать интересные практические примеры в наши курсы Apache Kafka для разработчиков, сегодня поговорим о согласованности в распределенных системах с высокой доступностью. Читайте далее, что такое eventual consistency, почему это важно для микросервисной архитектуры, при чем здесь ограничения CAP-теоремы и как решить проблемы обеспечения конечной согласованности с Kafka Streams. ...

23Мар
2021

Как построить свой OAuth с аутентификацией и авторизацией для Kafka: кейс BlackRock

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka security, безопасность кластера Кафка, настройка аутентификации и авторизации в Кафка

Чтобы сделать наши курсы по Apache Kafka еще более полезными, сегодня мы поговорим про базовые и расширенные возможности обеспечения информационной безопасности этой Big Data платформы. А в качестве практического примера разберем кейс международной финтех-компании BlackRock, которая разработала собственное security-решение для Kafka на базе протокола OAuth и серверов единого доступа KeyCloak....

22Мар
2021

Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, CDC Oracle Kafka Connector Confluent, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, Kafka Connect, Oracle Database

В феврале 2021 года разработчики корпоративной версии Apache Kafka с коммерческой поддержкой, компания Confluent, выпустили премиум-коннектор к Oracle – одной из главных реляционных баз данных мира enterprise. Разбираемся, кому и зачем это нужно, а также как устроена такая интеграция SQL-СУБД и потоковой аналитики Big Data с применением CDC-подхода. Реляционный монолит...

20Мар
2021

Основные операции СУБД MongoDB: основы NoSQL Big Data для начинающих

Автор Сергей Ушаковв категории NoSql, Блог

mongodb, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве

В этой статье мы поговорим про основные базовые операции в МонгоДБ. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД на практических примерах. Читайте далее про базовые CRUD-операции в MongoDB и их особенности. Основные операции СУБД MongoDB Прежде всего отметим, что MongoDB - это документно-ориентированная (данные хранятся в...

19Мар
2021

7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021

Автор Анна Вичуговав категории Spark, Блог

Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены другие полезные обновления. Читайте далее, почему развертывание Spark на Kubernetes стало еще проще, как реализуется плавное завершение работы узла без...

18Мар
2021

3 достоинства и пара недостатков Apache Spark на Kubernetes

Автор Анна Вичуговав категории Spark, Блог

С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить Спарк-задание в кластер Кубернетес и почему это сэкономит затраты на вашу инфраструктуру аналитики больших данных, не повысив производительность отдельных приложений,...