Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

08Фев
2021

Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Spark, Apache Spark Для разработчиков, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop, Machine Learning, Машинное обучение, Elasticsearch, Kafka, Python

Продвигая наши курсы для разработчиков Spark с примерами реальных систем аналитики больших данных, сегодня рассмотрим библиотеку для чтения файлов формата DICOM от индийской компании Abzooba. Читайте далее, как автоматизировать поиск по миллиардам медицинских изображений с помощью машинного обучения и технологий Big Data: Apache Spark, Hadoop, Kafka, Elasticsearch и Kibana. Что...

05Фев
2021

Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Автор Анна Вичуговав категории AirFlow, Spark, Блог

курсы Hadoop для инженеров данных, обучение дата-инженеров, инженер Big Data обучние, курсы Spark, курсы Airflow, курсы Hadoop, обучение Spark, обучение Airflow, обучение Hadoop, Hadoop для инженеров данных

Поскольку курсы инженеров Big Data предполагают практическое обучение на реальных кейсах, сегодня поговорим про тестирование конвейеров обработки и аналитики больших данных и разберем несколько прикладных примеров для компонентов экосистемы Apache Hadoop. Читайте далее про проверку работоспособности, а также поиск ошибок в Spark-заданиях и DAG-цепочках Airflow. Конвейер для конвейера: сложности тестирования...

04Фев
2021

Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, инженерия данных обучение, дата-инженер курсы, Apache Spark для инженеров больших данных и разработчиков обучение, Amazon Web Services Kinesism Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, SQL, предиктивная аналитика

Чтобы показать, насколько разной бывает аналитика больших данных, сегодня рассмотрим кейс международной компании Spidertracks, которая с помощью технологий Big Data создает ИТ-решения для отслеживания, связи и управления безопасностью воздушных судов. Читайте далее, почему для потоковой обработки событий был выбран Kinesis Analytics for SQL, а не конвейер из Apache Kafka и...

03Фев
2021

Конвейер CDC для Databricks Delta Lake: пример быстрого сбора и аналитики Big Data с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Apache Kafka для разработчиков, обучение Kafka, курсы Apache Kafka, Apache Spark для разработчиков, обучение Spark, курсы Apache Spark, интеграция Kafka Spark Streaming, аналитика Big Data, аналитика больших данных примеры и кейсы, обучение инженеров данных, курсы дата-инженеров, CDC Big Data, Change Data Capture Kafka Spark, аналитика Big Data, Школа Больших Данных Учебный центр Коммерсант, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hadoop

Сегодня продолжим разбираться с реализацией CDC-подхода в современных Big Data решениях и погрузимся в Databricks Delta Lake – облачный уровень хранения и аналитики больших данных с поддержкой ACID-транзакций. Читайте далее про переход от ночных ETL-пакетов с Informatica к быстрому обновлению данных в Amazon S3 на конвейере Spark и Kafka. Возможности...

02Фев
2021

CDC для потоковой аналитики Big Data с Apache Kafka и Spark: 3 практических примера

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Вчера мы упоминали про CDC-подход в проектировании транзакционных систем аналитики больших данных на базе Apache Kafka и Spark Streaming. Сегодня рассмотрим подробнее примеры такого применения технологий Big Data и лучшие практики Change Data Capture в потоковой обработке финансовых и других транзакций. Зачем нужны потоковые конвейеры транзакционной обработки Big Data на...

01Фев
2021

Что не так с real-time обработкой транзакций в конвейере Apache Kafka-Spark Streaming: 3 проблемы и способы их решения

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Apache Kafka для разработчиков, обучение Kafka, курсы Apache Kafka, Apache Spark для разработчиков, обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, интеграция Kafka Spark Streaming, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, e-commerce, Hadoop, HDFS, аналитика больших данных примеры и кейсы

В этой статье рассмотрим особенности совместного использования Apache Kafka и Spark Streaming для обработки финансовых транзакций в режиме онлайн. Читайте далее про типовые кейсы практического применения конвейера аналитики больших данных на базе Kafka и Spark, а также проблемы или технологические особенности такой Big Data системы и пути обхода этих ограничений....

30Янв
2021

Взболтать, но не смешивать: оптимизация вычислений в Apache Spark SQL

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчиков, обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark SQL

Продолжая разговор про оптимизацию Apache Spark и повышение эффективности Big Data приложений, сегодня рассмотрим способы ускорения Shuffle-операций в Spark SQL, разберем, чем хороши широковещательные JOIN-операции и как количество разделов влияет на производительность запросов в распределенных приложениях аналитики больших данных. 4 способа оптимизации Shuffle-операций При аналитике больших данных с помощью Apache...

29Янв
2021

3 легких способа ускорить отдельные задачи Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Недавно мы рассматривали, как повысить производительность конвейеров Apache Spark и повысить скорость распределенных приложений для аналитики больших данных. Сегодня разберемся, почему тормозят отдельные Spark-задачи и как их ускорить. Читайте далее про инициализацию Спарк-контекста, предзагрузку артефактов и применение клиентского режима. Почему некоторые задачи в быстром Apache Spark выполняются так медленно Напомним,...

18Янв
2021

Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это...

14Янв
2021

А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы

Автор Анна Вичуговав категории Kafka, Тесты

обучение Apache Kafka, курсы Apache Kafka, тест по Apache Kafka, бесплатный открытый тест по Apache Kafka, вопросы по Apache Kafka, обучение большим данным, интерактивный тест по Big data Для начинающих, основы Apache Kafka вопросы для проверки знаний

Чтобы сделать ваше самостоятельное обучение Apache Kafka и прочим технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам открытый интерактивный тест по этой платформе потоковой обработки событий. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного...