Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

08Май
2019

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

выборка, датасет, Data Preparation, интеллектуальный анализ данных

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в...

07Май
2019

Как подготовить данные к моделированию: 5 операций Data Preparation

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

CRISP-DM, статистика, обработка данных, Machine Learning, машинное обучение, Data Mining

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation - весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и времени в жизненном цикле Data Mining и включает следующие задачи обработки исходных («сырых») данных [1]: Выборка данных – отбор признаков...

07Апр
2019

Big Data и блокчейн: комбо или противостояние?

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, блокчейн, обработка данных, blockchain, block chain, распределенный реестр

Сегодня большие данные и технологии распределенного реестра до сих пор являются самыми популярными ИТ-темами. Возможности их внедрения в каждую прикладную сферу, от банковской отрасли до медицины, обсуждаются на конференциях всех уровней, корпоративных совещаниях и государственных советах [1]. Принесет ли объединение Big Data и блокчейн дополнительные бонусы, в каких случаях не...

04Апр
2019

20 проблем для Data Scientist, от которых не спасет CRISP-DM

Автор Анна Вичуговав категории Machine Learning, Блог, Цифровая трансформация

машинное обучение, Machine Learning, обработка данных, Big Data, Большие данные, статистика, Data Science, Data Scientist

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных проблемах, которые подстерегают исследователя данных на практических проектах и от чего не убережет даже подробно проработанный стандарт CRISP-DM. Из его...

02Апр
2019

Автор Анна Вичуговав категории Machine Learning, Блог, Цифровая трансформация

машинное обучение, Machine Learning, CRISP-DM, обработка данных, Big Data, Большие данные, статистика

Посмотрев выступление Станислава Гафарова [1], руководителя направления по развитию ИТ-систем АО «СберТех», от 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе Авито [2], мы составили ТОП-7 ошибок при работе с данными по методологии CRISP-DM. На основании жизненного цикла работы с информацией по стандарту...