Следствием мультиколлинеарности является. Определение наличия мультиколлинеарности

Явление мультиколлинеарности в случае линейной модели регрессии – это нарушение одной из ее предпосылок, т.е. наличие линейной зависимости между факторами.

Мультиколлинеарность – это высокая взаимная коррелированность объясняющих переменных.

_______________________________________________________________________

Мультиколлинеарность может проявляться в двух формах:

1) при функциональной / явной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными являются линейной функциональной зависимостью.

2) стохастическая / скрытая форма в экономических исследованиях проявляется чаще, когда между двумя объясняющими переменными существует тесная корреляционная связь.

Для того, чтобы регрессионный анализ, основанный на МНК, давал наилучшие результаты, предполагается, что значения х не являются случайными величинами и что не коррелированы, т.е. каждая переменная содержит уникальную информацию о у, которая не содержит в других . Когда такая идеальная ситуация существует, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна из может быть точно выражена в терминах другой переменной для всех элементов набора данных.

Причины мультиколлинеарности:

1) способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, при оценке влияния на размер жилья доходов семьи и размера семьи если мы соберем данные только среди семей большого размера и с высокими доходами и не включим в модель семьи малого размера и с небольшими доходами, то в результате получится модель с эффектом мультиколлинеарности. Решение проблемы – улучшение схемы выборки. В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением будет исключение одной из переменных;

2) высокая мощность переменной. Например, для изменения вида модели может быть введен дополнительный термин в модель, уже содержащую $

3) регрессоры, измеряющие примерно одно и то же: валютный курс на начало и на конец дня;

4) естественные соотношения между регрессорами: возраст, стаж и количество лет обучения.

Последствия мультиколлинеарности:

1) при проверке нулевой гипотезы о незначимости коэффициентов регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии по проверке с помощью F-критерия оказывается значимым, что говорит о завышенной оценке коэффициента регрессии; доверительные интервалы имеют слишком широкие границы;



2) полученные оценки параметров уравнения в основном неоправданно завышены или имеют неправильные знаки;

3) добавление или исключение из исходных данных 1-2 наблюдений оказывает сильное влияние на оценки коэффициентов;

4) наличие мультиколлинеарности в модели может сделать ее непригодной для дальнейшего применения.

Основная проблема мультиколлинеарности – обесценение дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF (variation inflation factor) – коэффициент вздутия дисперсии по сравнению с той дисперсией, которая была бы, если бы не имел коллинеарности с другими независимыми переменными в регрессии:

где – значение коэффициента множественной детерминации для регрессора на все остальные.

Например, значение VIF=6 означает, что дисперсия коэффициентов в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Считается, что критическое значение составляет VIF=10 – слишком большая корреляция между факторами.

Пример .

Для регрессии на остальные регрессоры

Для регрессии

Для регрессии

Есть ли мультиколлинеарность?

Довольно плохо объясняется остальными переменными, переменная линейно независима.

Переменные линейно зависимы, высокий.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

37. Определение мультиколлинеарности. Последствия мультиколлинеарности. Методы обнаружения мультиколлинеарности

Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х :

Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n , то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х .

Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:

1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ ).

Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

где rij – линейный коэффициент парной корреляции между i -м и j -ым факторными переменными,

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:

1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;

2) вычисляют собственные числа корреляционной матрицы факторных переменных ?min и ? max . Если ? min‹10-5 , то в модели регрессии присутствует мультиколлинеарность. Если отношение

то также делают вывод о наличии мультиколлинеарных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.

Данный текст является ознакомительным фрагментом. Из книги 100 великих чудес техники автора Мусский Сергей Анатольевич

Самолет дальнего радиолокационного обнаружения «Боинг» E-3 Это было 8 мая 1942 года в Коралловом море. «В 10 часов 55 минут радиолокационная установка обнаружила большую группу вражеских самолетов, подходившую с северо-востока. В 11 часов 13 минут наблюдатели «Лексингтона»

Из книги Энциклопедия безопасности автора Громов В И

1.3.5. Средства обнаружения и обезвреживания мин Обнаружение мин, отдельных фугасов, а также минированных участков производится:- по внешним признакам;- специальными приборами (миноискатели, щупы, стетоскопы);- собаками минорозыскной службы.*Демаскирующие признаки

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

38. Методы устранения мультиколлинеарности Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным

Из книги Судебная медицина и психиатрия: Шпаргалка автора Автор неизвестен

Из книги Гражданский кодекс РФ автора ГАРАНТ

Из книги "Шпионские штучки 2" или как сберечь свои секреты автора Андрианов Владимир Ильич

4.2. Специальные инструменты для обнаружения тайников 4.2.1. Поисковое зеркалоОсновным инструментом для обнаружения тайников является поисковое зеркало. Оно может быть маленьким, примерно как у зубного врача, может быть и гораздо больше. Зеркало (рис. 4.2) крепится на

Из книги Криминалистика. Шпаргалки автора Петренко Андрей Витальевич

27. Правила и классификация методов обнаружения следов 1. Первыми должны применяться неразрушающие методы. Необходимо начинать с микрометодов: не осталось ли каких-либо жировых следов, мельчайших клеточек отслоившейся кожи.2. Далее применяются неразрушающие методы,

Из книги Сила шаманов. Боевая и лечебная магия индейцев Дикого Запада автора Стукалин Юрий Викторович

38. Следы зубов: особенности обнаружения и их признаки Достаточно распространенными являются трассологические исследования следов зубов человека. Криминалистика изучает только следы зубов на материалах, поверхностях, еде; следы на теле человека - предмет изучения

Из книги Учебник выживания снайпера [«Стреляй редко, но метко!»] автора Федосеев Семён Леонидович

41. Особенности обнаружения, изъятия пуль и гильз В большинстве случаев гильза остается на месте преступления, способ обнаружения может быть: а) выборочный; б) сплошной.Применение выборочного способа для короткоствольного оружия таково:- устанавливается

Из книги Обман и провокации в малом и среднем бизнесе автора Гладкий Алексей Анатольевич

57. Средства для обнаружения микрообъектов Микрообъекты - это материальные объекты, связанные с событием преступления, поиск, обнаружение, изъятие и исследование которых ввиду их малых размеров и массы затруднительны или невозможны невооруженным глазом.Действия с

Из книги Базовая подготовка спецназа [Экстремальное выживание] автора Ардашев Алексей Николаевич

58. Особенности обнаружения микрообъектов Поиск и обнаружение микрообъектов должны осуществляться с соблюдением мер предосторожности. Все объекты сначала осматриваются без каких-либо перемещений; при изменении положения объекта под него помещают чистый лист кальки,

Из книги автора

Методы обнаружения колдунов «Есть много способов отличить колдуна от шамана, хотя большинство людей, обладающих мощной Силой, практикуют и то и другое, – говорили чирикауа апачи. – Человек мог жить рядом с колдуном и не знать об этом. Например, колдуньей могла быть его

Из книги автора

Из книги автора

Антижучок, или Средства обнаружения шпионской аппаратуры Как уже отмечалось, в настоящее время на российском рынке представлено великое множество самых разных шпионских устройств и разведывательной аппаратуры: скрытые микрофоны, жучки, системы скрытого

Мультиколлинеарность – это линейная зависимость между двумя или несколькими факторными переменными в уравнении множественной регрессии. Если такая зависимость является функциональной, то говорят о полной мультиколлинеарности . Если же она является корреляционной, то имеет место частичная мультиколлинеарность . Если полная мультиколлинеарность является скорее теоретической абстракцией (она проявляется, в частности, если фиктивную переменнную, имеющую k уровней качества, заменить на k дихотомических переменных), то частичная мультиколлинеарность весьма реальна и присутствует практически всегда. Речь может идти лишь о степени ее выраженности. Например, если в состав объясняющих переменных входят располагаемый доход и потребление, то обе эти переменные, конечно, будут сильно коррелированными.

Отсутствие мультиколлинеарности является одной из желательных предпосылок классической линейной множественной модели. Это связано со следующими соображениями:

1) В случае полной мультиколинеарности вообще невозможно построить оценки параметров линейной множественной регрессии с помощью МНК.

2) В случае частичной мультиколлинеарности оценки параметров регрессии могут быть ненадежными и, кроме того, затруднено определение

изолированного вклада факторов в результативный показатель.

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Подозрением наличия мультиколлинеарности служат:

– большое количество незначимых факторов в модели;

– большие стандартные ошибки параметров регрессии;

– неустойчивость оценок (небольшое изменение исходных данных приводит к их существенному изменению).

Один из подходов для определения наличия или отсутствия мультиколлинеарности заключается в анализе корреляционной матрицы

между объясняющими переменными и выявлении пар факторов, имеющих высокие коэффициенты парной корреляции (обычно больше 0,7). Если такие факторы существуют, то говорят о явной коллинеарности между ними.

Однако парные коэффициенты корреляции, рассматриваемые индивидуально, не могут оценить совокупное взаимодействие нескольких факторов (а не только двух).

Поэтому для оценки наличия мультиколлинеарности в модели используется определитель матрицы парных коэффициентов корреляции между факторами (определитель матрицы межфакторной корреляции )

Чем ближе определитель матрицы межфакторной корреляции к 0, тем сильнее мультиколлинеарность, и наоборот, чем ближе определитель к 1, тем меньше мультиколлинеарность.


Статистическая значимость мультиколлинеарности факторов определяется проверкой нулевой гипотезы при альтернативной гипотезе . Для проверки нулевой гипотезы используется распределение Пирсона с степенями свободы. Наблюдаемое значение статистики находится по формуле , где n – число наблюдений, m – число факторов. Для заданного уровня значимости по таблице критических точек распределения Пирсона определяется критическое значение . Если , то гипотеза отклоняется и считается, что в модели присутствует мультиколлинеарность факторов.

Выделить факторы, влияющие на мультиколлинеарность, позволяет также анализ коэффициентов множественной детерминации, вычисленных при условии, что каждый из факторов рассматривается в качестве зависимой переменной от других факторов: , , …, . Чем ближе они к 1, тем сильнее мультиколлинеарность факторов. Значит, в уравнении следует оставлять факторы с минимальной величиной коэффициента множественной детерминации.

Что касается полной мультиколлинеарности, то с ней следует вести самую решительную борьбу: сразу же удалять из регрессионного уравнения переменные, которые являются линейными комбинациями другихпеременных.

Частичная мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет настолько серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

Иногда проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

В ряде случаев минимизировать либо совсем устранить мультиколлинеарность можно с помощью преобразования факторных переменных. При этом наиболее распространены следующие преобразования:

1. Линейная комбинация мультиколлинеарных переменных (например, ).

2. Замена мультиколлинеарной переменной ее приращением .

3. Деление одной коллинеарной переменной на другую.


Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Исключение переменной(ых) из модели
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
Получение дополнительных данных или новой выборки
Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
Изменение спецификации модели
В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
Использование предварительной информации о некоторых параметрах
Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.
Пусть

Множественный коэффициент
корреляции между зависимой переменной Y и набором объясняющих переменных X 1,X 2,...,Xm. Он определяется как обычный парный коэффициент корреляции между Y и линейной функцией
регрессии Y = b0 + KX1 + b2X2+... + bmXm. Пусть amp; = R-1 - матрица, обратная к матрице R:


Тогда квадрат коэффициента Ry.X = Rr(xi,x2,..,x) может быть вычислен по формуле:


Подправленная на несмещенность оценка R*2.X коэффициента детерминации R2y.X имеет вид:

(Если поформуле (6.7) получают отрицательное число, то полагают


Нижняя доверительная граница для

определяется
по формуле:

На практике, при решении вопроса о том, какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов.
(j = 1, 2,..., m) . При этом

совпадает с квадратом обычного
парного коэффициента корреляции

Пусть


тогда наиболее информативной будет переменная xp. Затем рассчитывают подправленный на несмещенность коэффициент
(при m = 1) и его нижнюю доверительную границу R2min (1) .


более информативной будет пара jxp,xq). Затемрассчитывают подправленный на несмещенность коэффициент(при m = 2)
и его нижнюю доверительную границу R2min (2) .

Процедуру продолжают до тех пор, когда на шаге (к +1) выполнится условие:
Тогда в модель включают наиболее информативные переменные, полученные на первых к шагах. Отметим, что в расчетах используют формулы (6.7) и (6.8), в которых вместо т берут соответствующее значение номера шага к.
На самом деле этот метод не гарантирует, что мы избавимся от мультиколлинеарности.
Используют и другие методы устранения мультиколлинеарности.
Пример 6.1. Имеются следующие условные данные (табл. 6.1):
Таблица 6.1
Данные для метода последовательного включения


Х1

Х2

Х3

У

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент

Тогда:


Рассмотрим влияние на зависимую переменную пар переменных (x1, x2) и (x1, x3). Сначала рассмотрим влияние пары переменных (x1, x2).



icuvum uvjpcuuivi, ыхсдул рсьимслдсіцшім мсіида ііи^ісдиьсіїсльпи-
го присоединения переменных, в уравнение следует включить две объясняющие переменные. Следовательно, теоретическое уравнение примет вид:
Гребневой метод
Рассмотрим «гребневой метод» («ридж-регрессия») устранения мультиколлинеарности. Метод был предложен А. Э. Хоэрлом в 1962 г. и применяется, когда матрица (xtX) близка к вырожденной. К диагональным элементам матрицы (xtX) добавляют некоторое небольшое число (от 0,1 до 0,4). При этом получают смещенные оценки параметров уравнения. Но стандартные ошибки таких оценок в случае мультиколлинеарности ниже ошибок даваемых обычным методом наименьших квадратов.
Пример 6.2. Исходные данные представлены « табл6 2 Коэффициент корреляции объясняющих переменных

что
свидетельствует о сильной мультиколлинеарности.
Таблица 6.2
Данные для исследования мультиколлинеарности гребневым методом


x1

x2

У

1

1,4

7

2

3,1

12


Тогда получим уравнение у = 2,63 +1,37x1 + 1,95x2. Диагональные элементы обратной матрицы значительно снизятся и будут равны z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, что приводит к снижению стандартных ошибок коэффициентов.
Резюме
Среди основных последствий, к которым может привести мультиколлинеарность, можно выделить следующие:
  1. при проверке основной гипотезы о незначимости коэффициентов множественной регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии при проверке с помощью A-критерия оказывается значимым, что говорит о завышенной величине коэффициента множественной корреляции;
  2. полученные оценки коэффициентов уравнения множественной регрессии в основном неоправданно завышены или имеют неправильные знаки;
  3. добавление или исключение из исходных данных одного- двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
  4. наличие мультиколлинеарности в модели множественной регрессии может сделать ее непригодной для дальнейшего применения (например, для построения прогнозов).
Вопросы для самопроверки
  1. Что такое мультиколлинеарность?
  2. Какие показатели свидетельствуют о наличии мультиколлинеарности?
  3. Чему равен определитель матрицы XTX в случае совершенной мультиколлинеарности?
  4. Что можно сказать о смысле коэффициентов при объясняющих переменных в случае мультиколлинеарности?
  5. Какое преобразование производят в гребневом методе, к чему оно приводит?
  6. Каков порядок действий в методе последовательного увеличения числа объясняющих переменных?
  7. Что показывает коэффициент корреляции?
  8. Что показывает частный коэффициент корреляции?

Под полной мультиколлинеарностью понимается существование между некоторыми из факторов линейной функциональной связи. Количественным выражением этого служит то обстоятельство, ранг матрицы Х меньше, чем (р +1), а матрица (Х’Х ) будет вырожденной, т.е. её определитель равен нулю, а обратной матрицы к ней не существует. В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, т.к. её несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных.

Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия или отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности.

В первую очередь анализируют матрицу парных коэффициентов корреляции:

точнее, ту её часть, которая относится к объясняющим переменным. Считается, что две переменные явно коллинеарны, если . В этом случае факторы дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдаётся фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

Очевидно, что факторы х 1 и х 2 дублируют друг друга (). Однако в модель следует включить фактор х 2 , а не х 1 , поскольку корреляция фактора х 2 с у достаточно высокая (), а с фактором х 3 слабая ().

Другим методом оценки мультиколлинеарности факторов может служить определитель матрицы парных коэффициентов корреляции между факторами (37). Обоснованием данного подхода служат такие рассуждения. Если бы факторы не коррелировали между собой, то в определителе (37) все внедиагональные элементы равнялись бы нулю, а на диагонали стояли бы единицы. Такой определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты межфакторной корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель (37), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице величина (37), тем меньше мультиколлинеарность факторов.

Для оценки значимости мультиколлинеарности факторов выдвигается гипотеза Н 0:Δr 11 =1. Доказано, что величина имеет приближенное распределение χ 2 с степенями свободы. Если , то гипотеза Н 0 отклоняется, мультиколлинеарность считается доказанной.

Другим методом выявления мультиколлинеарности является анализ коэффициентов множественной детерминации факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Например, коэффициент рассчитывается по следующей регрессии:

где первый фактор взят в качестве результативного признака, а остальные факторы – как независимые переменные, влияющие на первый фактор. Чем ближе такой R 2 к единице, тем сильнее проявляется мультиколлинеарность факторов. Оставляя в уравнении регрессии факторы с минимальной R 2 , можно решить проблему отбора факторов.

При этом рассчитывается статистика:

(39)

Если коэффициент статистически значим, то . В этом случае x j является линейной комбинацией других факторов, и его можно исключить из регрессии.

Основные последствия мультиколлинеарности:

1. Большие дисперсии оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующего фактора на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии.

Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага).

Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода.

В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов.

В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

Например, пусть эмпирическое уравнение регрессии имеет вид:

где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин:

Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать.

Частная корреляция

С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой-либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

Коэффициенты частной корреляции определяются различными способами. Рассмотрим некоторые из них.

Для простоты предположим, что имеется двухфакторная регрессионная модель:

и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х 1 после исключения влияния х 2 определяется по следующему алгоритму:

1. Осуществим регрессию у на х 2 .

2. Осуществим регрессию х 1 на х 2 и константу и получим прогнозные значения .

3. Удалим влияние х 2 , взяв остатки и .

4. Определим выборочный коэффициент частной корреляции между у и х 1 при исключении х 2 как выборочный коэффициент корреляции между e y и e 1 :

(42)

Значения частных коэффициентов корреляции лежат в интервале [-1,1], как у обычных коэффициентов корреляции. Равенство нулю означает отсутствие линейного влияния переменной х 1 на у .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

(43)

где - обычный коэффициент корреляции.

Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х 2 заменить на набор переменных Х 2 , сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у , определяя частную корреляцию между факторами).

Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х 0 , запишем определитель матрицы парных коэффициентов корреляции в виде:

(44)

Тогда частный коэффициент корреляции определяется по формуле:

, (45)

где R ii - алгебраическое дополнение для элемента r ii в определителе (44).

Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле:

(46)

Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу:

(47)

При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции, с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k , а не n .

Пример . По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х 1 – среднемесячное количество профилактических наладок автоматической линии; х 2 – среднемесячное количество обрывов нити.

По исходным данным были подсчитаны выборочные парные коэффициенты корреляции:

Проверка статистической значимости этих величин показала отсутствие значимой статистической связи между результативным признаком и каждым из факторов, что не согласуется с профессиональными представлениями технолога. Однако расчет частных коэффициентов корреляции дал значения:

которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями.

Для оценки значимости фактора, дополнительно вводимого в модель, используется частный F- критерий . Не каждый фактор, вошедший в модель, существенно увеличивает долю объясненной дисперсии в общей дисперсии результата. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Для частного F – критерия используется формула:

, (50)

которая является частным случаем формулы (32). Здесь в числителе – разность между коэффициентом детерминации модели с полным набором факторов и коэффициентом детерминации модели до введения в неё фактора x j .

С помощью частного F – критерия можно проверить значимость всех коэффициентов регрессии в предположении, что соответствующий фактор x j вводился в уравнение регрессии последним. Процедура проверки не отличается от таковой для статистики (32).

Зная величину , можно определить и t – критерий для коэффициента регрессии при x j :

Существует взаимосвязь между квадратом частного коэффициента корреляции и частным F – критерием:

Частный F – критерий широко используется при построении модели методом включения переменных.