Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна

Нормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать значения переменных перед тем, как запустить моделирование для интеллектуального анализа данных (Data Mining). Что такое нормализация данных и чем она...

Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction

Извлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В этом случае Feature Extraction относится к сфере NLP, Natural Language Processing – обработка естественного языка. Это отдельное направление искусственного интеллекта и математической лингвистики [1]. Здесь...

Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist...

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных (Data Cleaning) для Data Mining, зачем она нужна и как выполнять этот этап Data Preparation. Что такое очистка данных для...

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в...

Как подготовить данные к моделированию: 5 операций Data Preparation

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation - весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и времени в жизненном цикле Data Mining и включает следующие задачи обработки исходных («сырых») данных [1]: Выборка данных – отбор признаков...

Логистика высокой частоты: 5 примеров успешного использования RFID-технологий – интернет вещей (IoT) в России и за рубежом

Мы уже писали, как радиочастотные метки применяются в машиностроении, нефтегазовой отрасли, сельском хозяйстве и сфере безопасности. Продолжая серию публикаций об интернете вещей(IoT), мы представляем вам 5 кейсов отечественных и зарубежных компаний по использованию RFID-технологий в логистике и складском учете. RFID в легкой промышленности: международная логистика Немецкий производитель и продавец одежды,...

Радиочастотный интернет вещей в промышленности: как, где и зачем используются RFID-метки – 5 практических кейсов российских и зарубежных компаний

Продолжая тему интернета вещей, мы нашли еще 5 примеров успешного применения RFID-меток в промышленности: машиностроении, нефтегазовой отрасли, сельском хозяйстве и для обеспечения безопасности на массовых мероприятиях. Сегодня в нашем материале отечественные и зарубежные компании делятся своим опытом использования этих технологий Internet Of Things. RFID на производстве реактивных двигателей Зарубежное предприятие...

Как интернет вещей и большие данные увеличивают прибыль оффлайн-магазинов: 5 практических кейсов

Интернет вещей (Internet Of Things) считает покупателей торговых центров, а средства больших данных (Big Data) и машинного обучения (Machine Learning) превращают эти цифры в реальную выгоду для бизнеса. Мы нашли еще 5 примеров успешного использования этих технологий в ритейле и делимся с вами опытом отечественных и зарубежных компаний. Интернет вещей...

И тебя посчитали: как интернет вещей и большие данные повышают офлайн-продажи, считая посетителей торговых центров

Мы уже описывали, как американская торговая сеть Macy’s успешно использует интернет вещей (Internet Of Things) для персонализированного маркетинга. Bluetooth-маячок определяет местоположение посетителя в магазине с точностью до нескольких сантиметров и подает сигнал в корпоративную CRM-систему. CRM отправляет клиенту на смартфон предложение со скидкой на товар, ближайший к потребителю в данный момент [1]. Сегодня мы...

Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning

Мы уже рассказывали, зачем HR-специалисту большие данные, как Big Data и Machine Learning помогают PR-менеджеру в управлении корпоративной репутацией, а маркетологу в формировании персональных рекламных предложений. Сегодня поговорим об одном из средств реализации этих и других бизнес-задач – языке программирования R и рассмотрим 7 причин, почему вам необходимо освоить этот...

Big Data и Machine Learning в HR: еще 5 примеров успешного использования информационных технологий для управления человеческими ресурсами

Недавно мы рассказывали, зачем HR-специалисту большие данные, как быстро и эффективно внедрить Big Data в управление персоналом, а также описывали случаи интеллектуального рекрутинга с помощью машинного обучения. В продолжение этой темы сегодня мы приготовили для вас 5 интересных кейсов от отечественных и зарубежных компаний по 3 HR-направлениям: управление талантами, повышение...

Интеллектуальный автоматизированный рекрутинг: Big Data и Machine Learning в HR

Мы уже описывали, зачем HR-специалисту большие данные, а также как быстро и эффективно внедрить Big Data в управление персоналом на практике. Сегодня расскажем о конкретных случаях применения этих технологий в HR: успешные кейсы отечественных и зарубежных компаний. Роботы-рекрутеры Сервис автоматизированного рекрутинга, разработанный российской компанией Stafory, позволяет в 10 раз сократить...

Умный HR: как быстро внедрить Big Data и Machine Learning в управление человеческими ресурсами

Как быстро и эффективно внедрить Big Data и Machine Learning в прикладную область бизнеса для решения практических задач, избежав популярных ошибок Data Scientist - разбираемся на примере HR-направления. Подготовка к внедрению Big Data в HR и не только Зачем HR-специалисту большие данные и какую пользу они принесут управленческим процессам и...

Как и зачем HR использует Big Data: технологии больших данных в управлении человеческими ресурсами

Как измерить управленческий опыт, предсказать и предотвратить профессиональное выгорание, быстро найти подходящего кандидата и сформировать высокоэффективную команду с помощью Big Data – разбираемся в HR-аналитике и других важных вопросах «умного» управления персоналом. Откуда в HR большие данные ? Согласно исследованию аудиторской компании KPMG, Big Data используются примерно в 60% HR-департаментов различных организаций...

Big Data и блокчейн: комбо или противостояние?

Сегодня большие данные и технологии распределенного реестра до сих пор являются самыми популярными ИТ-темами. Возможности их внедрения в каждую прикладную сферу, от банковской отрасли до медицины, обсуждаются на конференциях всех уровней, корпоративных совещаниях и государственных советах [1]. Принесет ли объединение Big Data и блокчейн дополнительные бонусы, в каких случаях не...

20 проблем для Data Scientist, от которых не спасет CRISP-DM

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных проблемах, которые подстерегают исследователя данных на практических проектах и от чего не убережет даже подробно проработанный стандарт CRISP-DM. Из его...

7 популярных ошибок при работе с данными по стандарту CRISP-DM

Посмотрев выступление Станислава Гафарова [1], руководителя направления по развитию ИТ-систем АО «СберТех», от 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе Авито [2], мы составили ТОП-7 ошибок при работе с данными по методологии CRISP-DM. На основании жизненного цикла работы с информацией по стандарту...

Большие данные и машинное обучение в аэропортах: 7 практических примеров в России и за рубежом

Как большие данные и машинное обучение меняют современные аэропорты, обеспечивая безопасность, повышая продажи, управляя движением пассажиропотоков и самолетов: какие технологии успешно используется и что нас ждет в будущем – смотрим кейсы внедрения Big Data и Machine Learning в отечественных и зарубежных аэровокзалах. 1. Большие данные и машинное обучение обеспечивают безопасность...

Большие данные в авиации: 4 кейса применения Big Data в аэропортах и самолетах

Как большие данные и машинное обучение используется авиакомпаниями и аэропортами для обеспечения безопасности полетов, технического обслуживания самолетов и изучения клиентских предпочтений: разбираемся на примерах внедрения технологий Big Data и Machine Learning в отечественную и зарубежную авиаиндустрию. 1. Большие данные для обеспечения безопасности полетов, взлетов и посадок Технологии Big Data позволяют...