Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

03Дек
2021

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Flink Kafka примеры кейсы, Apache Flink и Kafka для инженеров данных и разработчиков, обучение большим данным курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта - платежного шлюза для интернет-магазинов. Как всего 2 задания Flink могут быстро обнаруживать простои более 50 когорт событий на уровне платежного шлюза и 200+ когорт разных интернет-магазинов. Работать нельзя остановиться:...

02Дек
2021

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура PXF, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Greenplum Примеры курсы обучение, глубокое обучение, Deepl Learning примеры кейсы, машинное обучение нейросети курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере распознавания изображений. Platform Extension Framework как инструмент извлечения и преобразования изображений из облачных объектных хранилищ для обучений глубоких нейросетей с...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

30Ноя
2021

Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka на Kubernetes, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, KubeMQ, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о сложностях развертывания Apache Kafka на платформе управления контейнерами Kubernetes. Некоторые из этих проблем отлично решает KubeMQ – брокер очередей сообщений на Kubernetes. Зачем нужна очередная служба обмена данными, как она устроена и при чем здесь Kafka. Проблемы Kafka на Kubernetes и не только Сложная архитектура современных...

29Ноя
2021

Все сложно: Morpheus, Cypher и Apache Spark GraphX

Автор Анна Вичуговав категории Spark, Блог

курсы Спарк, обучение разработчиков Спарк, анализ данных с Apache Spark, Spark курсы примеры обучение, Cypher Neo4j Spark, графовая аналитика больших данных в Spark Cypher, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как язык запросов Cypher должен был появиться в Apache Spark 3.0, зачем это нужно и почему до сих пор не реализовано. Краткая история проекта Morpheus, его связь с Neo4j, а также модулями Spark GraphX и GraphFrames. Что такое Morpheus...

27Ноя
2021

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение дата-инженеров, AirFlow курсы примеры обучение, Apache AirFlow для инженеров данных, Smart Sensor AirFlow примеры польза. обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных. Что такое Smart Sensor и как умные датчики экономят ресурсы на выполнение долгосрочных легковесных задач. Легкие, долгие и ресурсоемкие: проблемы...

26Ноя
2021

Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi Doсker Kubernetes, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как организовать полностью сохраняемый сервис Apache NiFi с помощью Docker, чтобы обеспечить безопасность конвейеров и потоков данных при изменении конфигураций и перезапуске служб. А также разберем, как дата-инженеру и администратору кластера NiFi запустить его на Kubernetes. Проблемы масштабирования и отказоустойчивости Apache NiFi Благодаря наличию веб-GUI, множеству готовых процессоров...

25Ноя
2021

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Анна Вичуговав категории HBase, Блог

обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании Clairvoyant. 5 способов резервного копирования в Apache HBase Apache HBase - это популярная колоночная NoSQL-СУБД, которая работает поверх распределенной файловой...

24Ноя
2021

Как связать Neo4j с Apache Kafka: 2 способа интеграции

Автор Анна Вичуговав категории Kafka, Neo4j, Блог

Kafka Neo4j интеграция,, курсы Kafka, обучение Kafka, курсы Neo4j, обучение Neo4j, графовая аналитика больших данных, обучение дата-инженеров, инженерия больших данных курсы, обучение большим данным, курсы Big Data Для инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы рассматривали коннектор Neo4j к Apache Spark, который позволяет строить конвейеры аналитики больших данных с применением графовых алгоритмов. Продолжая эту тему, сегодня разберем варианты интеграции Neo4j с Apache Kafka с помощью шаблонных запросов Cypher в плагине и коннектора от Confluent, а также от каких конфигурационных параметров зависит пропускная способность...

23Ноя
2021

Интеграция Neo4j с Apache Spark: обзор коннектора 4.1

Автор Анна Вичуговав категории Neo4j, Spark, Блог

Neo4j Apache Spark интеграция коннектор примеры обучение курсы, обучение графовые алгоритмы Neo4j Apache Spark, курсы Neo4j, обучение Apache Spark, курсы Neo4j с Apache Spark GraphFrames GraphX, графовые алгоритмы в бизнес-приложениях курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня заглянем под капот коннектора Neo4j к Apache Spark. Сценарии использования, принципы работы, поддержка потоковой передачи Spark и другие новинки версии 4.1 для построения эффективных аналитических коннекторов с помощью алгоритмов на графах. Как работает коннектор Neo4j к Apache Spark: краткий обзор Осенью...