Явление мультиколлинеарности встречается в моделях. Проблема мультиколлинеарности факторов в регрессионных моделях. Пример эконометрического исследования

Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Различают два вида мультиколлинеарности: полную и частичную.

Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

Литература:

1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

Еще одной серьезной проблемой при построении моделей множественной линейной регрессии по МНК является мультиколлинеарность − линейная взаимосвязь двух или нескольких объясняющих переменных. Причем, если объясняющие переменные связаны строгой функциональной зависимостью, то говорят о совершенной мультиколлинеарности . На практике можно столкнуться с очень высокой (или близкой к ней) мультиколлинеарностью − сильной корреляционной зависимостью между объясняющими переменными. Причины мультиколлинеарности и способы ее устранения анализируются ниже.

10.1. Суть мультиколлинеарности

Мультиколлинеарность может быть проблемой лишь в случае множественной регрессии. Ее суть можно представить на примере совершенной мультиколлинеарности.

Пусть уравнение регрессии имеет вид

Y = β 0 + β 1 X1 + β 2 X2 + ε .
Пусть также между объясняющими переменными существует
строгая линейная зависимость:
X2 = γ 0 + γ 1 X1 .
Подставив (10.2) в (10.1), получим:
Y = β 0 + β 1 X1 +β 2 (γ 0 + γ 1 X1 ) + ε

или Y = (β 0 + β 2 γ 0 ) + (β 1 + β 2 γ 1 )X1 + ε .

Обозначив β 0 + β 2 γ 0 = a, β 1 + β 2 γ 1 = b, получаем уравнение парной линейной регрессии:

Y = a + b X1 + ε .

По МНК нетрудно определить коэффициенты a и b. Тогда получим систему двух уравнений:



			В 2 г 1

В систему (10.4) входят три неизвестные β 0 , β 1 , β 2 (коэффициенты γ 0 и γ 1 определены в (10.2)). Такая система в подавляющем числе случаев имеет бесконечно много решений. Таким образом, совершен-

ная мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии уравнения (10.1) и разделить вклады объясняющих переменных X1 и X2 в их влиянии на зависимую переменную Y. В этом случае невозможно сделать обоснованные статистические выводы об этих коэффициентах. Следовательно, в случае мультиколлинеарности выводы по коэффициентам и по самому уравнению регрессии будут ненадежными.

Совершенная мультиколлинеарность является скорее теоретическим примером. Реальна же ситуация, когда между объясняющими переменными существует довольно сильная корреляционная зависимость, а не строгая функциональная. Такая зависимость называется

несовершенной мультиколлинеарностью. Она характеризуется высо-

ким коэффициентом корреляции ρ между соответствующими объясняющими переменными. Причем, если значение ρ по абсолютной величине близко к единице, то говорят о почти совершенной мультиколлинеарности. В любом случае мультиколлинеарность затрудняет разделение влияния объясняющих факторов на поведение зависимой переменной и делает оценки коэффициентов регрессии ненадежными. Данный вывод наглядно подтверждается с помощью диаграммы Вен-

на (рис. 10.1).

X 1 X 2

На рис. 10.1, а коррелированность между объясняющими переменными Х1 и Х2 отсутствует и влияние каждой из них на Y находит отражение в наложении кругов Х1 и Х2 на круг Y. По мере усиления линейной зависимости между Х1 и Х2 соответствующие круги все больше накладываются друг на друга. Заштрихованная область отра-

жает совпадающие части влияния Х1 и Х2 на Y. На рис. 10.1, г при совершенной мультиколлинеарности невозможно разграничить степени индивидуального влияния объясняющих переменных Х1 и Х2 на зависимую переменную Y.

10.2. Последствия мультиколлинеарности

Как известно, при выполнении определенных предпосылок МНК дает наилучшие линейные несмещенные оценки (BLUE-оценки). Причем свойство несмещенности и эффективности оценок остается в силе даже, если несколько коэффициентов регрессии оказываются статистически незначимыми. Однако несмещенность фактически означает лишь то, что при многократном повторении наблюдений (при постоянных объемах выборок) за исследуемыми величинами средние значения оценок стремятся к их истинным значениям. К сожалению, повторять наблюдения в одинаковых условиях в экономике практически невозможно. Поэтому это свойство ничего не гарантирует в каждом конкретном случае. Наименьшая возможная дисперсия вовсе не означает, что дисперсия оценок будет мала по сравнению с самими оценками. В ряде случаев такая дисперсия достаточно велика, чтобы оценки коэффициентов стали статистически незначимыми.

Обычно выделяются следующие последствия мультиколлинеарности:

1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t-статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующей объясняющей переменной на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т. е. они становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющей переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии. Причину последствий 3, 4 можно наглядно проиллюстрировать

на примере регрессии (10.1). Данную регрессию можно рассматривать

как проекцию вектора Y на плоскость векторов X1 и X2 . Если между этими векторами существует тесная линейная зависимость, то угол между векторами X1 и X2 мал. В силу этого операция проектирования становится неустойчивой: небольшое изменение в исходных данных может привести к существенному изменению оценок. На рис. 10.2 векторы Y и Y′ различаются незначительно, но в силу малого угла между X1 и X2 координаты векторов Y и Y′ не только значительно различаются по величине, но и по знаку.

Y ′

10.3. Определение мультиколлинеарности

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

1. Коэффициент детерминации R 2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т.е. они имеют низкие t-статистики.

2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

Однако данный признак будет надежным лишь в случае двух объясняющих переменных. При большем их количестве более целесообразным является использование частных коэффициентов корреляции.

3. Высокие частные коэффициенты корреляции.

Частные коэффициенты корреляции определяют силу линейной зависимости между двумя переменными без учета влияния на них других переменных. Однако при изучении многомерных связей в ряде случаев парные коэффициенты корреляции могут давать совершенно неверные представления о характере связи между двумя переменными. Например, между двумя переменными Х и Y может быть высокий положительный коэффициент корреляции не потому, что одна из них

стимулирует изменение другой, а оттого, что обе эти переменные изменяются в одном направлении под влиянием других переменных, как учтенных в модели, так и, возможно, неучтенных. Поэтому имеется необходимость измерять действительную тесноту линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов. Коэффициент корреляции между двумя переменными, очищенными от влияния других переменных, на-

зывается частным коэффициентом корреляции.

Например, при трех объясняющих переменных X1 , X2 , X3 частный коэффициент корреляции между X1 и X2 рассчитывается по формуле:

r 12.3	r 12 − r 13r 23
r 12.3		− r2 )(1	− r 2

Опираясь на данную формулу, нетрудно заметить, что частный коэффициент корреляции может существенно отличаться от “обычного” коэффициента корреляции r12 . Пусть, например, r12 = 0.5; r13 = 0.5; r23 = − 0.5. Тогда частный коэффициент корреляции r12.3 = 1, т. е. при относительно невысоком коэффициенте корреляции r12 частный коэффициент корреляции r12.3 указывает на высокую зависимость (коллинеарность) между переменными X1 и X2 . Нетрудно показать, что возможна и обратная ситуация. Другими словами, для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать частные коэффициенты корреляции.

В общем случае выборочный частный коэффициент корреляции межу переменными Xi и Xj (1 ≤ i < j ≤ m), очищенный от влияния остальных (m − 2) объясняющих переменных, символически обозначается

r ij. 1 2 … (i − 1)(i+1)…(j − 1)(j+1)…m .

Приведем без доказательства формулу расчета данного коэффициента.

Пусть эмпирические парные коэффициенты корреляции между всевозможными парами объясняющих переменных Х1 , Х2 , …, Хm представлены в виде корреляционной матрицы




R = r

R3m .

... ...




			−1



										c mm

С * − обратная матрица к матрице R . Тогда

r ij. 1 2 … (i − 1)(i +1)…(j − 1)(j +1)…m =				− c * ij

				c * ii c * jj
Из общей формулы (10.6) легко получаются частные формулы
(10.5) для трех переменных и (10.7) для четырех переменных:
r ij. kl =	r ij. k − r il. k r jl. k
	(1− r2	)(1 − r2

	il. k		jl. k

Пусть rj = ryj . 1 2 …(j − 1)(j +1)…m − частный коэффициент корреляции между зависимой переменной Y и переменной Хj , очищенный от

влияния всех остальных объясняющих переменных. Тогда rj 2 − част-

ный коэффициент детерминации, который определяет процент дисперсии переменной Y, объясняемый влиянием только переменной Хj .

Другими словами, rj 2 , j = 1, 2, …,m позволяет оценить вклад каждой переменной Xj на рассеивание переменной Y.

4. Сильная вспомогательная (дополнительная) регрессия.

Мультиколлинеарность может иметь место вследствие того, что какая-либо из объясняющих переменных является линейной (или близкой к линейной) комбинацией других объясняющих переменных. Для данного анализа строятся уравнения регрессии каждой из объясняющих переменных Xj , j = 1, 2, … , m на оставшиеся объясняющие переменные вспомогательные регрессии. Вычисляются соответствующие коэффициенты детерминации Rj 2 и рассчитывается их статистическая значимость на основе F-статистики

			R2 j		n − m

			− R 2 j		m − 1

Здесь n − число наблюдений, m − число объясняющих переменных в первоначальном уравнении регрессии. Статистика F имеет распределение Фишера с ν 1 = m − 1 и ν 2 = n − m степенями свободы. Данная формула аналогична формуле (6.36). Если коэффициент Rj 2 статистически незначим, то Xj не является линейной комбинацией других переменных и ее можно оставить в уравнении регрессии. В противном случае есть основания считать, что Xi существенно зависит от других объясняющих переменных, и имеет место мультиколлинеарность.

Существует и ряд других методов определения мультиколлинеарности, описание которых выходит за рамки данной книги.

10.4. Методы устранения мультиколлинеарности

Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы прилагать серьезные усилия по ее выявлению и устранению. Ответ на этот вопрос в основном зависит от целей исследования.

Если основная задача модели − прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (≥ 0.9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее.

Если же целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.

Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

10.4.1. Исключение переменной(ых) из модели

Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого возможно получение смещенных оценок и осуществление необоснованных выводов. Таким образом, в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

10.4.2. Получение дополнительных данных или новой выборки

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной.

Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, данный подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

10.4.3. Изменение спецификации модели

В ряде случаев проблема мультиколлинеарности может быть решена изменением спецификации модели: либо изменением формы модели, либо добавлением объясняющих переменных, которые не учтены в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

10.4.4. Использование предварительной информации

о некоторых параметрах

Иногда при построении модели множественной регрессии можно воспользоваться некоторой предварительной информацией, в частно-

сти, известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, полученные для ка- ких-либо предварительных (обычно более простых) моделей, либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

Для иллюстрации приведем следующий пример. Строится регрессия вида (10.1). Предположим, что переменные X1 и X2 коррелированны. Для ранее построенной модели парной регрессии Y = γ 0 +

+ γ 1 X1 +υ был определен статистически значимый коэффициент γ 1 (для определенности пусть γ 1 = 0.8), связывающий Y с X1 . Если есть основания думать, что связь между Y и X1 останется неизменной, то можно положить γ 1 = β 1 = 0.8. Тогда (10.1) примет вид:

Y = β 0 + 0.8X1 + β 2 X2 + ε .
Y – 0.8X1 = β 0 + β 2 X2 + ε .

Уравнение (10.9) фактически является уравнением парной регрессии, для которого проблема мультиколлинеарности не существует.

Ограниченность использования данного метода обусловлена тем, что, во-первых, получение предварительной информации зачастую затруднительно, а во-вторых, вероятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, невысока.

10.4.5. Преобразование переменных

В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

Например, пусть эмпирическое уравнение регрессии имеет вид

Y = b0 + b1 X1 + b2 X2 ,

причем X1 и X2 − коррелированные переменные. В этой ситуации можно попытаться определять регрессионные зависимости относительных величин



					1 X 1



						1 X 2

Вполне вероятно, что в моделях, аналогичных (10.11), проблема мультиколлинеарности будет отсутствовать.

Возможны и другие преобразования, близкие по своей сути к вышеописанным. Например, если в уравнении рассматриваются взаимосвязи номинальных экономических показателей, то для снижения мультиколлинеарности можно попытаться перейти к реальным показателям и т. п.

Вопросы для самопроверки

1. Объясните значение терминов “коллинеарность” и “мультиколлинеарность”.

2. В чем различие между совершенной и несовершенной мультиколлинеарностью?

3. Каковы основные последствия мультиколлинеарности?

4. Как можно обнаружить мультиколлинеарность?

5. Как оценивается коррелированность между двумя объясняющими переменными?

6. Перечислите основные методы устранения мультиколлинеарности.

7. Какие из следующих утверждений истинны, ложны или не определены? Ответ поясните.

а) При наличии высокой мультиколлинеарности невозможно оценить статистическую значимость коэффициентов регрессии при коррелированных переменных.

б) Наличие мультиколлинеарности не является препятствием для получения по МНК BLUE-оценок.

в) Мультиколлинеарность не является существенной проблемой, если основная задача построенной регрессионной модели состоит в прогнозировании будущих значений зависимой переменной.

г) Высокие значения коэффициентов парной корреляции между объясняю-

щими переменными не всегда являются признаками мультиколлинеарности. д) Так как Х2 является строгой функцией от Х, то при использовании обеих переменных в качестве объясняющих возникает проблема мультиколлинеарности.

е) При наличии мультиколлинеарности оценки коэффициентов остаются не-

смещенными, но их t-статистики будут слишком низкими.

ж) Коэффициент детерминации R2 не может быть статистически значимым, если все коэффициенты регрессии статистически незначимы (имеют низкие t- статистики).

з) Мультиколлинеарность не приводит к получению смещенных оценок коэффициентов, но ведет к получению смещенных оценок для дисперсий коэф-

фициентов.

и) В регрессионной модели Y = β 0 + β 1 X1 + β 2 X2 + ε наличие мультиколлинеарности можно обнаружить, если вычислить коэффициент корреляции между Х1 и Х2 .

8. Пусть по МНК оценивается уравнение регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε . Для большинства выборок наблюдается высокая коррелированность между

X1 и X2 . Пусть коррелированности между этими переменными не наблюдается. Коэффициенты регрессии оцениваются по данной выборке. Будут ли в этом случае оценки несмещенными? Будут ли несмещенными оценки дисперсий найденных эмпирических коэффициентов регрессии?

9. Объясните логику отбрасывания объясняющей переменной с целью устранения проблемы мультиколлинеарности.

10. Пусть в уравнении регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε переменные X1 и X2

сильно коррелированны. Строится уравнение регрессии X2 на X1 , случайные отклонения от которой обозначим через υ . Строится новое уравнение регрес-

сии с зависимой переменной Y и двумя объясняющими переменными − Х2 и υ . Будет ли решена таким образом проблема мультиколлинеарности?

Упражнения и задачи

1. Имеется выборка из 10 наблюдений за переменными X 1 , X2 , Y:

а) Можно ли по этим данным по МНК оценить коэффициенты регрессии с двумя объясняющими переменными. Ответ поясните.

б) В случае отрицательного ответа на вопрос а) предложите преобразования, которые позволят оценить коэффициенты регрессии.

2. По выборке n = 50 для X 1 , Х2 , X3 построена следующая корреляционная матрица

			− 0.35


− 0.35

эффициентов корреляции r12.3 , r23.1 , r13.2 .

б) При рассмотрении какой регрессии будет иметь место мультиколлинеарность?

3. После оценки уравнения регрессии Y = b 0 + b1 X1 + b2 X2 + e был рассчитан коэффициент корреляции rx 1 x 2 = 0. Были рассчитаны уравнения парной

регрессии: Y = с0 + с1 X1 + υ ; Y = d0 + d2 X2 + ϖ .

Можно ли ожидать, что будут выполняться следующие соотношения:

а) b1 = с1 ; b2 = d2 ;

б) b0 равен либо с0 , либо d0 , либо некоторой их комбинации;

в) S(b1 ) = S(с1 ); S(b2 ) = S(d2 ) .

а) Постройте уравнение регрессии INV = b0 + b1 GNP + b2 CONS + e. б) Оцените качество построенного уравнения.

в) Можно ли было ожидать при построении данного уравнения наличия мультиколлинеарности? Ответ поясните.

г) Имеет ли место мультиколлинеарность для построенного вами уравнения? Как вы это определили?

д) Постройте уравнения регрессии INV на GNP и INV на CONS. Какие выводы можно сделать по построенным моделям?

е) Постройте уравнение регрессии CONS на GNP. Что обнаруживает построенная модель?

ж) Как можно решить проблему мультиколлинеарности для первоначальной модели?

5. Пусть исследуется вопрос о среднем спросе на кофе AQ (в граммах на одно-

го человека). В качестве объясняющих переменных предполагается использовать следующие переменные: PC − индекс цен на кофе, lnYD − логарифм от реального среднедушевого дохода, POP − численность населения, PT − индекс цен на чай. Можно ли априори предвидеть, будут ли в этом случае

значимыми все t-статистики и будет ли высоким коэффициент детерминации R2 ? Какими будут ваши предложения по уточнению состава объясняющих переменных.

6. Пусть рассматривается следующая модель:

CONSt = β 0 + β 1 GNPt + β 2 GNPt − 1 +β 3 (GNPt − GNPt − 1 ) + ε ,

где CONSt − объем потребления в момент времени t; GNPt , GNPt − 1 − объемы ВНП в моменты времени t и t− 1 соответственно.

а) Что утверждается в данной модели?

б) Можно ли по МНК оценить все коэффициенты указанного уравнения регрессии?

в) Какой из коэффициентов и вследствие чего нельзя оценить?

г) Решит ли проблему оценки исключение из модели переменной GNPt или переменной GNPt − 1 ? Ответ поясните.

Мультиколлинеарность означает, что в множественной регрессионной модели две или большее число независимых переменных (факторов) связаны между собой тесной линейной зависимостью или, другими словами, имеют высокую степень корреляции ().

Последствия мультиколлинеарности:

1. Первым практическим последствием мультиколлинеарности является большая дисперсия и ковариация оценок параметров, вычисленных методом наименьших квадратов.

2. Вторым практическим последствием мультиколлинеарности является увеличение доверительных интервалов теоретических коэффициентов уравнения линейной регрессии.

3. Уменьшается статистика коэффициентов, поэтому возможен вывод о статистической незначимости коэффициента.

4. Коэффициенты уравнения регрессии становятся очень чувствительными к малейшим изменениям данных.

5. Затрудняется определение вклада каждой из переменных в объясняемую уравнением дисперсию признака.

К сожалению, нет единого подхода для определения мультиколлинеарности. Приведем несколько методов тестирования наличия мультиколлинеарности.

1) Высокое значение коэффициента детерминации и низкие статистики некоторых переменных.

2) Высокие значения частных коэффициентов корреляции. Однако это условие является достаточным, но не является необходимым условием наличия мультиколлинеарности. Она может иметь место даже при относительно небольших значениях коэффициентов корреляции, когда число факторов больше двух.

3) тест Фаррара–Глобера.

Этот тест имеет и другое название: построение вспомогательной регрессии.

Коэффициент детерминации является коэффициентом детерминации в уравнении регрессии, которое связывает фактор с остальными факторами Например, .является коэффициентом детерминации такой регрессии:

Для каждого коэффициента детерминации рассчитываем отношение:

Тест проверяет гипотезу

при конкурирующей гипотезе

Вычисленное значение сравниваем с критическим значением , найденным по таблицам распределения Фишера с и степеням свободы и заданным уровнем значимости. Если то отвергаем нулевую гипотезу и считаем, что фактор является мультиколлинеарным; если то нулевую гипотезу принимаем и убеждаемся, что фактор не является мультиколлинеарным.

Для устранения мультиколлинеарности существует несколько способов.

Первый способ. Если между двумя факторами и существует мультиколлинеарность, то один из факторов исключается из рассмотрения.

Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Она может быть функциональной (явной) и стохастической (скрытой). При функциональной мультиколлинеарности матрица ХТХ - вырождена и, (ХТХ)-1 не существует, поэтому невозможно определить. Чаще мультиколлинеарность проявляется в стохастической форме, при этом МНК - оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение R2);
3) расширяются интервальные оценки коэффициентов, ухудшая их точность;
4) возможно получение неверного знака у коэффициента регрессии.

Обнаружение

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

Во-первых, анализ корреляционной матрицы парных коэффициентов корреляции:

- если имеются пары переменных, имеющих высокие коэффициенты корреляции (> 0,75 - 0,8), говорят о мультиколлинеарности между ними;
- если факторы некоррелированы, то det Q = 1, если полная корреляция, то det Q = 0.

Можно проверить Н0: det Q = 1; используя статистический критерий

где n - число наблюдений, m = р+1.

Если, то Н0 отвергается, и мультиколлинеарность доказана.

Во-вторых, определяют множественные коэффициенты детерминации одной из объясняющих переменных и некоторой группой других. Наличие высокого R2 (> 0,6) свидетельствует о мультиколлинеарности.

В третьих, близость к нулю - минимального собственного значения матрицы ХТХ (т.е. решения уравнения) свидетельствует о близости к нулю и det(XTX) и, следовательно, о мультиколлинеарности.

В-четвертых, высокие частные коэффициенты корреляции.

где - алгебраические дополнения элементов матрицы выборочных коэффициентов корреляции. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле:

В-пятых, о присутствии мультиколлинеарности говорят некоторые внешние признаки построенной модели, являющиеся её следствиями. К ним следует отнести такие:

· некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения;
· небольшое изменение исходных статистических данных (добавление или изъятие некоторых наблюдений) приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков;
· большинство или даже все оценки коэффициентов регрессии оказываются статистически незначимыми по t-критерию, в то время как модель в целом является значимой по F-критерию.

Существует и ряд других методов определения мультиколлинеарности.

Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Это утверждение будет обоснованным, если и в будущем между коррелированными переменными сохранятся те же соотношения.

Если целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.