Куда заводы сливают свои большие данные: 3 примера Data Lake

Содержание

Озеро данных на Talend Data Fabric в L’Oréal
Цифровизация «Уралхима»: Data Lake для отечественного химического холдинга
IIoT, Informatica Big Data Management и Apache Hadoop в автоконцерне Ford

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica.

Озеро данных на Talend Data Fabric в L’Oréal

Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования и разработки новых продуктов, чтобы сотрудники подразделение по исследованиям и инновациям могли оперативно анализировать научную и маркетинговую информацию. Это позволит повысить эффективность формирования продуктового ассортимента. В озере данных L’Oréal ежедневно обрабатывается около 50 миллионов различных датасетов, от производственных показателей до маркетинговых метрик. Непрерывное обновление этой Big Data системы по несколько раз в день обеспечивает актуальность информации [1].

При том, что Talend Data Fabric позиционируется как отдельная коммерческая платформа для сбора и аналитики больших данных, она использует множество open-source технологий стека Big Data: Apache Hadoop (HDFS, Hbase, Hive, Pig, Sqoop), Spark и Kafka, а также поддерживает интеграцию с реляционными и NoSQL-СУБД (Greenplum, Cassandra, Couchbase, CouchDB, Impala, MemSQL, MongoDB, Neo4J) [2]. Таким образом, основой для хранения неструктурированных данных является Data Lake на базе Hadoop, а Talend Data Fabric предоставляет удобные возможности интеграции его с другими технологиями Big Data, повышая удобство развертывания и эксплуатации.

Возвращаясь к рассматриваемому кейсу компании L’Oréal, отметим что этот проект цифровизации позволил косметическому гиганту снизить срок разработки новых продуктов и их выводв на рынок (TTM, Time to Market) за счет оперативного доступа к производственным данным и истории потребительских предпочтений. Data Lake аккумулирует все данные по характеристикам и физико-химическому определению формул и сырья, а также информацию о восприятии продуктов потребителями в «боевых» условиях и в режиме реального времени [1].

Цифровизация «Уралхима»: Data Lake для отечественного химического холдинга

АО «ОХК «УРАЛХИМ», одна из крупнейших компаний на рынке азотных и фосфорных удобрений в Российской Федерации и СНГ, совместно с ИТ-интегратором «Крок» в июне 2020 года завершила очередной этап своей цифровой трансформации. Реализовано корпоративное озеро данных, которое планируется связать со всеми Big Data и BI-системами холдинга. Уже сейчас доступна интеграция с BI-платформой для построения отчетности в режиме реального времени, а с промышленными датчиками для анализа отклонений, мониторинга и выявления неработающего оборудования в режиме, близком к реальному времени. Таким образом, проект цифровизации поддерживает технологии Industry 4.0, объединяя технологические метрики с бизнес-показателями с помощью промышленного интернета вещей (Industrial Internet Of Things, IIoT) и BI-приложений. Запущенная платформа для анализа и хранения потоковых данных о показателях с технологического оборудования хранит данные глубиной 5 и более лет. В дальнейшем в Data Lake также будет стекаться информации по отгрузкам, складским остаткам и различным KPI [3].

Одним из важных вариантов использования всех этих данных является предиктивная аналитика. В частности, прогнозирование отказов оборудования и оптимизация графика его профилактического ремонта с помощью методов машинного обучения (Machine Learning). Также предполагается анализировать и повышать качество продукции за счет непрерывного мониторинга. Подобным образом технологии Big Data и Machine Learning используются в ПАО «Северсталь», а также «Сибуре», «Роснефти», «Газпромнефти» и прочих промышленных компаниях в рамках «цифровых двойников» и других проектов цифровой трансформации, о чем мы рассказывали здесь.

IIoT, Informatica Big Data Management и Apache Hadoop в автоконцерне Ford

Наконец, отметим интересный кейс автомобильной компании Ford, которая в ходе цифровизации своего бизнеса устанавливает на каждую из 5 миллионов производимых машин IIoT-датчики сбора данных. Таким образом, в компанию будет поступать до 25 гигабайтов данных в час или около 2500 петабайт в день, что в 1000 раз больше ежедневного объема данных Google.

Этот проект цифровизации основан на технологиях IIoT и кластерах Apache Hadoop, интегрированных с продуктами Informatica: Informatica Big Data Management, Enterprise Information Catalog, Intelligent Data Lake, Master Data Management. Они предоставляют конечным пользователям (Data Scientist’ам и аналитикам Big Data) простой и удобный доступ к данным, собранным с автомобильных IIoT-датчиков

Комплексная IIoT-платформа позволит владельцем автомобилей удалённо проверять уровень топлива, местоположение автомобиля и видеть сбои в работе. А сбор этих данных в корпоративное Data Lake компании Ford поможет штатным Data Scientist’ам и аналитикам данных проверять различные бизнес-гипотезы и находить полезные закономерности. В частности, на основе анализа собранных данных, компания может предложить своим клиентом новые продукты и дополнительные услуги, повышая таким образом лояльность своих потребителей. Примечательно, что все эти большие данные могут использоваться как актив с возможностью монетизации через сторонние предприятия. Например, для продажи результатов анализа или «сырых данных» компаниям из смежных областей [4]. В следующей статье мы продолжим разговор про аналитику больших данных и рассмотрим. что такое self-service BI и как это работает в области Big Data. А какие еще инструменты помогают аналитикам данных работать с Apache Hadoop, читайте здесь.

Еще больше реальных кейсов и технических подробностей по внедрению Data Lake на базе Apache Hadoop для эффективного хранения и обработки больших данных в рамках проектов цифровизации своего бизнеса вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Смотреть расписание

Записаться на курс

Источники

Содержание

Озеро данных на Talend Data Fabric в L’Oréal

Цифровизация «Уралхима»: Data Lake для отечественного химического холдинга

IIoT, Informatica Big Data Management и Apache Hadoop в автоконцерне Ford

Публикации по теме