Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

10Июл
2020

Не только HDFS: как Apache Kudu ускоряет аналитику Big Data в Hadoop

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala

Сегодня поговорим про движки хранения больших данных в экосистеме Apache Hadoop и рассмотрим, что такое Kudu, каковы особенности применения, достоинства и недостатки этой колоночной NoSQL-СУБД. Также читайте в нашей статье, как Kudu связан с Impala, Spark и другими Big Data фреймворками. Что такое Apache Kudu и где это используется Распределенная...

05Июл
2020

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети - российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и...

03Июл
2020

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что...

01Июл
2020

Big Data в профиль: что такое профилирование больших данных

Автор Анна Вичуговав категории Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, ETL, DWH, нефтянка, нефтегазовая промышленность, Spark

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это нужно, при чем тут озера данных (Data Lake) и ETL-процессы, а также прочие аспекты инженерии и аналитики больших данных. Что...

29Июн
2020

Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Kafka, DevOps

Продолжая разговор про интеграцию информационных систем с помощью стриминговой платформы, сегодня мы рассмотрим преимущества event streaming архитектуры на примере Apache Kafka. Также читайте в нашей статье про 5 ключевых сценариев использования Кафка в потоковой обработке событий: от IoT/IIoT до микросервисного разделения в системах аналитики больших данных (Big Data) и машинного...

26Июн
2020

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Agile, DevOps, DWH, Data Lake

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также обсудим, что влияет на архитектуру интеграции корпоративных систем и распределенных Big Data приложений, что такое спагетти-структура и почему много сервисов...

25Июн
2020

Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош...

24Июн
2020

5 причин разделения кластеров Apache Kafka по DevOps

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile, DevOps

В продолжение темы про проявление Agile-принципов в Big Data системах, сегодня мы рассмотрим, как DevOps-подход отражается в использовании Apache Kafka. Читайте в нашей статье про кластерную архитектуру коннекторов Кафка и KSQL – SQL-движка на основе API клиентской библиотеки Kafka Streams для аналитики больших данных, о которой мы рассказывали здесь. Из...

22Июн
2020

Быстро, непрерывно, вместе: 3 принципа Agile в KSQL и Apache Kafka Connect

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile

Мы уже рассказывали, как некоторые принципы Agile отражаются в Big Data системах. Сегодня рассмотрим это подробнее на примере коннекторов Кафка и KSQL – SQL-движка для Apache Kafka. Он который базируется на API клиентской библиотеки для разработки распределенных приложений с потоковыми данными Kafka Streams и позволяет обрабатывать данные в режиме реального...

17Июн
2020

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для...