Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Дек
2021

Управление жизненным циклом конвейеров Apache Airflow: советы дата-инженеров Databand

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение AirFlow, курсы Apache AirFlow, курсы инженеров данных, инженерия данных обучение, дата-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы для дата-инженеров по Apache AirFlow, сегодня рассмотрим, как автоматизировать развертывание сложных DAG’ов с помощью Docker и Kubernetes на примере управления конвейерами обработки данных. Лучшие практики и советы от инженеров данных DataOps-компании Databand. 4 вопроса дата-инженера к production-развертыванию конвейеров Apache Airflow Apache AirFlow считается одним из самых популярных...

06Дек
2021

Найти и обезвредить Spill в Spark-приложениях: причины и решения

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Apache Spark Для разработчиков примеры обучение, spill in spark apps, проблемы с производительностью Spark-приложений, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений разберем проблему с производительностью Apache Spark из-за неоптимальной стратегии переброса данных между оперативной и постоянной памятью. Что такое spill-эффект, почему он случается, как его идентифицировать и устранить. Что такое spill и почему он случается: под капотом Spark-приложений При том, что spill можно рассматривать...

04Дек
2021

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi новый релиз, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров до интеграции процессоров с пользователями Kerberos и улучшения работы с GitHub. Новинки и улучшения Apache NiFi 1.15.0 Свежий выпуск Apache...

03Дек
2021

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Flink Kafka примеры кейсы, Apache Flink и Kafka для инженеров данных и разработчиков, обучение большим данным курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта - платежного шлюза для интернет-магазинов. Как всего 2 задания Flink могут быстро обнаруживать простои более 50 когорт событий на уровне платежного шлюза и 200+ когорт разных интернет-магазинов. Работать нельзя остановиться:...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

30Ноя
2021

Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka на Kubernetes, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, KubeMQ, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о сложностях развертывания Apache Kafka на платформе управления контейнерами Kubernetes. Некоторые из этих проблем отлично решает KubeMQ – брокер очередей сообщений на Kubernetes. Зачем нужна очередная служба обмена данными, как она устроена и при чем здесь Kafka. Проблемы Kafka на Kubernetes и не только Сложная архитектура современных...

29Ноя
2021

Все сложно: Morpheus, Cypher и Apache Spark GraphX

Автор Анна Вичуговав категории Spark, Блог

курсы Спарк, обучение разработчиков Спарк, анализ данных с Apache Spark, Spark курсы примеры обучение, Cypher Neo4j Spark, графовая аналитика больших данных в Spark Cypher, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как язык запросов Cypher должен был появиться в Apache Spark 3.0, зачем это нужно и почему до сих пор не реализовано. Краткая история проекта Morpheus, его связь с Neo4j, а также модулями Spark GraphX и GraphFrames. Что такое Morpheus...

27Ноя
2021

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение дата-инженеров, AirFlow курсы примеры обучение, Apache AirFlow для инженеров данных, Smart Sensor AirFlow примеры польза. обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных. Что такое Smart Sensor и как умные датчики экономят ресурсы на выполнение долгосрочных легковесных задач. Легкие, долгие и ресурсоемкие: проблемы...

25Ноя
2021

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Анна Вичуговав категории HBase, Блог

обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании Clairvoyant. 5 способов резервного копирования в Apache HBase Apache HBase - это популярная колоночная NoSQL-СУБД, которая работает поверх распределенной файловой...

24Ноя
2021

Как связать Neo4j с Apache Kafka: 2 способа интеграции

Автор Анна Вичуговав категории Kafka, Neo4j, Блог

Kafka Neo4j интеграция,, курсы Kafka, обучение Kafka, курсы Neo4j, обучение Neo4j, графовая аналитика больших данных, обучение дата-инженеров, инженерия больших данных курсы, обучение большим данным, курсы Big Data Для инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы рассматривали коннектор Neo4j к Apache Spark, который позволяет строить конвейеры аналитики больших данных с применением графовых алгоритмов. Продолжая эту тему, сегодня разберем варианты интеграции Neo4j с Apache Kafka с помощью шаблонных запросов Cypher в плагине и коннектора от Confluent, а также от каких конфигурационных параметров зависит пропускная способность...