Мультиколлинеарность — корреляция независимых переменных [1], которая затрудняет оценку и анализ общего результата [2]. Когда независимые переменные коррелируют друг с другом, говорят о возникновении мультиколлинеарности.
В машинном обучении (Machine Learning) мультиколлинеарность может стать причиной переобучаемости модели, что приведет к неверному результату [3]. Кроме того, избыточные коэффициенты увеличивают сложность модели машинного обучения, а значит, время ее тренировки возрастает. Еще мультиколлинеарность факторов плоха тем, что математическая модель регрессии содержит избыточные переменные, а это значит [4]:
- осложняется интерпретация параметров множественной регрессии как величин действия факторов, параметры регрессии теряют смысл и следует рассматривать другие переменные;
- оценки параметров ненадежны – получаются большие стандартные ошибки, которые меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования.
Для оценки мультиколлинеарности используется матрица парных коэффициентов корреляции, у которой необходимо вычислить определитель. При этом возможны следующие ситуации [4]:
- у совсем не коррелирующих факторов матрица парных коэффициентов корреляции единичная, у которой все элементы вне ее главной диагонали равны нулю;
- если между факторами определилась абсолютно линейная зависимость и все коэффициенты корреляции равняются единице, то определитель такой матрицы равен нулю;
- чем определитель меньше (ближе к нулю), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии;
- чем определитель ближе к единице, тем меньше мультиколлинеарность факторов.
Две переменных коллинеарны, когда они находятся между собой в линейной зависимости, если коэффициент корреляции более 0,7. Чтобы избавиться от мультиколлинарности, необходимо исключить из модели один из факторов. Например, в эконометрике исключается фактор, который при сильной связи с результатом имеет наибольшую тесноту связи с другими переменными [4].
Источники
- https://edwvb.blogspot.com/2015/02/multicollinearity.html
- http://www.machinelearning.ru/wiki/index.php?title=Мультиколлинеарность
- http://datareview.info/article/7-oshibok-dopuskaemyih-pri-vyipolnenii-mashinnogo-obucheniya/
- http://univer-nn.ru/ekonometrika/multikollinearnost/