От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica.

Озеро данных на Talend Data Fabric в L’Oréal

Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования и разработки новых продуктов, чтобы сотрудники подразделение по исследованиям и инновациям могли оперативно анализировать научную и маркетинговую информацию. Это позволит повысить эффективность формирования продуктового ассортимента. В озере данных L’Oréal ежедневно обрабатывается около 50 миллионов различных датасетов, от производственных показателей до маркетинговых метрик. Непрерывное обновление этой Big Data системы по несколько раз в день обеспечивает актуальность информации [1].

При том, что Talend Data Fabric позиционируется как отдельная коммерческая платформа для сбора и аналитики больших данных, она использует множество open-source технологий стека Big Data: Apache Hadoop (HDFS, Hbase, Hive, Pig, Sqoop), Spark и Kafka, а также поддерживает интеграцию с реляционными и NoSQL-СУБД (Greenplum, Cassandra, Couchbase, CouchDB, Impala, MemSQL, MongoDB, Neo4J) [2]. Таким образом, основой для хранения неструктурированных данных является Data Lake на базе Hadoop, а Talend Data Fabric предоставляет удобные возможности интеграции его с другими технологиями Big Data, повышая удобство развертывания и эксплуатации.

Возвращаясь к рассматриваемому кейсу компании L’Oréal, отметим что этот проект цифровизации позволил косметическому гиганту снизить срок разработки новых продуктов и их выводв на рынок (TTM, Time to Market) за счет оперативного доступа к производственным данным и истории потребительских предпочтений. Data Lake аккумулирует все данные по характеристикам и физико-химическому определению формул и сырья, а также информацию о восприятии продуктов потребителями в «боевых» условиях и в режиме реального времени [1].

Цифровизация «Уралхима»: Data Lake для отечественного химического холдинга

АО «ОХК «УРАЛХИМ», одна из крупнейших компаний на рынке азотных и фосфорных удобрений в Российской Федерации и СНГ, совместно с ИТ-интегратором «Крок» в июне 2020 года завершила очередной этап своей цифровой трансформации. Реализовано корпоративное озеро данных, которое планируется связать со всеми Big Data и BI-системами холдинга. Уже сейчас доступна интеграция с BI-платформой для построения отчетности в режиме реального времени, а с промышленными датчиками для анализа отклонений, мониторинга и выявления неработающего оборудования в режиме, близком к реальному времени. Таким образом, проект цифровизации поддерживает технологии Industry 4.0, объединяя технологические метрики с бизнес-показателями с помощью промышленного интернета вещей (Industrial Internet Of Things, IIoT) и BI-приложений. Запущенная платформа для анализа и хранения потоковых данных о показателях с технологического оборудования хранит данные глубиной 5 и более лет. В дальнейшем в Data Lake также будет стекаться информации по отгрузкам, складским остаткам и различным KPI [3].

Одним из важных вариантов использования всех этих данных является предиктивная аналитика. В частности, прогнозирование отказов оборудования и оптимизация графика его профилактического ремонта с помощью методов машинного обучения (Machine Learning). Также предполагается анализировать и повышать качество продукции за счет непрерывного мониторинга. Подобным образом технологии Big Data и Machine Learning используются в ПАО «Северсталь», а также «Сибуре», «Роснефти», «Газпромнефти» и прочих промышленных компаниях в рамках «цифровых двойников» и других проектов цифровой трансформации, о чем мы рассказывали здесь.

IIoT, Informatica Big Data Management и Apache Hadoop в автоконцерне Ford

Наконец, отметим интересный кейс автомобильной компании Ford, которая в ходе цифровизации своего бизнеса устанавливает на каждую из 5 миллионов производимых машин IIoT-датчики сбора данных. Таким образом, в компанию будет поступать до 25 гигабайтов данных в час или около 2500 петабайт в день, что в 1000 раз больше ежедневного объема данных Google.

Этот проект цифровизации основан на технологиях IIoT и кластерах Apache Hadoop, интегрированных с продуктами Informatica: Informatica Big Data Management, Enterprise Information Catalog, Intelligent Data Lake, Master Data Management. Они предоставляют конечным пользователям (Data Scientist’ам и аналитикам Big Data) простой и удобный доступ к данным, собранным с автомобильных IIoT-датчиков

Комплексная IIoT-платформа позволит владельцем автомобилей удалённо проверять уровень топлива, местоположение автомобиля и видеть сбои в работе. А сбор этих данных в корпоративное Data Lake компании Ford поможет штатным Data Scientist’ам и аналитикам данных проверять различные бизнес-гипотезы и находить полезные закономерности. В частности, на основе анализа собранных данных, компания может предложить своим клиентом новые продукты и дополнительные услуги, повышая таким образом лояльность своих потребителей. Примечательно, что все эти большие данные могут использоваться как актив с возможностью монетизации через сторонние предприятия. Например, для продажи результатов анализа или «сырых данных» компаниям из смежных областей [4]. В следующей статье мы продолжим разговор про аналитику больших данных и рассмотрим. что такое self-service BI и как это работает в области Big Data. А какие еще инструменты помогают аналитикам данных работать с Apache Hadoop, читайте здесь.

Еще больше реальных кейсов и технических подробностей по внедрению Data Lake на базе Apache Hadoop для эффективного хранения и обработки больших данных в рамках проектов цифровизации своего бизнеса вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. https://www.computerweekly.com/news/252473129/LOreal-builds-Talend-based-data-lake-in-Microsoft-Azure-to-accelerate-product-RD/
  2. https://www.talend.com/products/specifications-big-data/
  3. https://www.uralchem.ru/press/news/URALKHIMpripodderzhkeKROKzapustiledinuyusistemuupravleniyanabazeBigData/
  4. https://dis-group.ru/customers/customer-success-stories/ford/
Поиск по сайту