Регрессионный анализ
Целью регрессионного анализа является измерение связи между зависимой переменной и одной (парный регрессионный анализ) или несколькими (множественный) независимыми переменными. Независимые переменные называют также факторными, объясняющими, определяющими, регрессорами и предикторами. Зависимую переменную иногда называют определяемой, объясняемой, «откликом». Чрезвычайно широкое распространение регрессионного анализа в эмпирических исследованиях связано не только с тем, что это удобный инструмент тестирования гипотез. Регрессия, особенно множественная, является эффективным методом моделирования и прогнозирования.
Объяснение принципов работы с регрессионным анализом начнем с более простого — парного метода.
Парный регрессионный анализ
Первые действия при использовании регрессионного анализа будут практически идентичны предпринятым нами в рамках вычисления коэффициента корреляции. Три основных условия эффективности корреляционного анализа по методу Пирсона — нормальное распределение переменных, интервальное измерение переменных, линейная связь между переменными — актуальны и для множественной регрессии. Соответственно, на первом этапе строятся диаграммы рассеяния, проводится статистически-описательный анализ переменных и вычисляется линия регрессии. Как и в рамках корреляционного анализа, линии регрессии строятся методом наименьших квадратов.
Чтобы более наглядно проиллюстрировать различия между двумя методами анализа данных, обратимся к уже рассмотренному примеру с переменными «поддержка СПС» и «доля сельского населения». Исходные данные идентичны. Отличие в диаграммах рассеяния будет заключаться в том, что в регрессионном анализе корректно откладывать зависимую переменную — в нашем случае «поддержка СПС» по оси У, тогда как в корреляционном анализе это не имеет значения.
Принципиальная идея регрессионного анализа состоит в том, что, имея общую тенденцию для переменных — в виде линии регрессии, — можно предсказать значение зависимой переменной, имея значения независимой.
Разность между исходным и предсказанным значениями называется остатком (с этим термином — принципиальным для статистики — мы уже сталкивались при анализе таблиц сопряженности). Так, для случая «Республика Адыгея» остаток будет равен 3,92 - 5,63 = —1,71. Чем больше модульное значение остатка, тем менее удачно предсказано значение.
Рассчитываем предсказанные значения и остатки для всех случаев:
Случай | Сел. нас. | СПС (исходное) | СПС (предсказанное) | Остатки |
Республика Адыгея | 47 | 3,92 | 5,63 | -1,71 ~ |
Республика Алтай | 76 | 5,4 | 2,59 | 2,81 |
Республика Башкортостан | 36 | 6,04 | 6,78 | -0,74 |
Республика Бурятия | 41 | 8,36 | 6,25 | 2,11 |
Республика Дагестан | 59 | 1,22 | 4,37 | -3,15 |
Республика Ингушетия | 59 | 0,38 | 4,37 | 3,99 |
И т. д. |
Анализ соотношения исходных и предсказанных значений служит для оценки качества полученной модели, ее прогностической способности. Одним из главных показателей регрессионной статистики является множественный коэффициент корреляции К — коэффициент
корреляции между исходными и предсказанными значениями зависимой переменной. В парном регрессионном анализе он равен обычному коэффициенту корреляции Пирсона между зависимой и независимой переменной, в нашем случае — 0,63. Чтобы содержательно интерпретировать множественный В, его необходимо преобразовать в коэффициент детерминации. Это делается так же, как и в корреляционном анализе — возведением в квадрат. Коэффициент детерминации Я-квадрат (К) показывает долю вариации зависимой переменной, объясняемую независимой (независимыми) переменными.
В нашем случае Д = 0,39 (0,63 ); это означает, что переменная «доля сельского населения» объясняет примерно 40% вариации переменной «поддержка СПС». Чем больше величина коэффициента детерминации, тем выше качество модели.
Другим показателем качества модели является стандартная ошибка оценки (з(апдагд еггог оГ е8Иша1е). Это показатель того, насколько сильно точки «разбросаны» вокруг линии регрессии. Мерой разброса для интервальных переменных является стандартное отклонение. Соответственно, стандартная ошибка оценки — это стандартное отклонение распределения остатков. Чем выше ее значение, тем сильнее разброс и тем хуже модель. В нашем случае стандартная ошибка составляет 2,18. Именно на эту величину наша модель будет «ошибаться в среднем» при прогнозировании значения переменной «поддержка СПС».
Регрессионная статистика включает в себя также дисперсионный анализ. С его помощью мы выясняем: 1) какая доля вариации (дисперсии) зависимой переменной объясняется независимой переменной; 2) какая доля дисперсии зависимой переменной приходится на остатки (необъясненная часть); 3) каково отношение этих двух величин (/А-отношение). Дисперсионная статистика особенно важна для выборочных исследований — она показывает, насколько вероятно наличие связи между независимой и зависимой переменными в генеральной совокупности. Однако и для сплошных исследований (как в нашем примере) изучение результатов дисперсионного анализа небесполезно. В этом случае проверяют, не вызвана ли выявленная статистическая закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится обследуемая совокупность, т. е. устанавливается не истинность полученного результата для какой-то более обширной генеральной совокупности, а степень его закономерности, свободы от случайных воздействий.
Если независимых переменных больше двух, мы не имеем возможности получить визуальное представление об их связи, в этом плане множественная регрессия менее «наглядна», нежели парная. При наличии двух независимых переменных данные бывает полезно отобразить на трехмерной диаграмме рассеяния. В профессиональных статистических пакетах программ (например, 81аИ8Иса) существует опция вращения трехмерной диаграммы, позволяющая хорошо визуально представить структуру данных.
При работе с множественной регрессией, в отличие от парной, необходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющиеся предикторы. Пошаговый алгоритм предполагает последовательное включение (исключение) независимых переменных, исходя из их объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.
Дополнительным условием корректности множественной регрессии (наряду с интервальностью, нормальностью и линейностью) является отсутствие мультиколлинеарности — наличия сильных корреляционных связей между независимыми переменными.
Интерпретация статистики множественной регрессии включает в себя все элементы, рассмотренные нами для случая парной регрессии. Кроме того, в статистике множественного регрессионного анализа есть и другие важные составляющие.
Работу с множественной регрессией мы проиллюстрируем на примере тестирования гипотез, объясняющих различия в уровне электоральной активности по регионам России. В ходе конкретных эмпирических исследований были высказаны предположения, что на уровень явки избирателей влияют:
• национальный фактор (переменная «русское население»; опера-ционализирована как доля русского населения в субъектах РФ). Предполагается, что увеличение доли русского населения ведет к снижению активности избирателей;
• фактор урбанизации (переменная «городское население»; опера-ционализирована как доля городского населения в субъектах РФ, с этим фактором мы уже работали в рамках корреляционного анализа). Предполагается, что увеличение доли городского населения также ведет к снижению активности избирателей.
Зависимая переменная — «интенсивность избирательной активности» («актив.») операционализирована через усредненные данные явки по регионам на федеральных выборах с 1995 по 2003 г. Исходная таблица данных для двух независимых и одной зависимой переменной будет иметь следующий вид:
Случай | Переменные1 | ||
Актив. | Гор. нас. | Рус. нас. | |
Республика Адыгея | 64,92 | 53 | 68 |
Республика Алтай | 68,60 | 24 | 60 |
Республика Бурятия | 60,75 | 59 | 70 |
Республика Дагестан | 79,92 | 41 | 9 |
Республика Ингушетия | 75,05 | 41 | 23 |
Республика Калмыкия | 68,52 | 39 | 37 |
Карачаево-Черкесская Республика | 66,68 | 44 | 42 |
Республика Карелия | 61,70 | 73 | 73 |
Республика Коми | 59,60 | 74 | 57 |
Республика Марий Эл | 65,19 | 62 | 47 |
И т. д. (после чистки выбросов остается 83 случая из 88) |
Статистика, описывающая качество модели:
1. Множественный К = 0,62; Л-квадрат = 0,38. Следовательно, национальный фактор и фактор урбанизации вместе объясняют около 38% вариации переменной «электоральная активность».
2. Средняя ошибка составляет 3,38. Именно настолько «в среднем ошибается» построенная модель при прогнозировании уровня явки.
3. /"-отношение объясненной и необъясненной вариации составляет 25,2 на /ьуровне 0,000000003. Нулевая гипотеза о случайности выявленных связей отвергается.
4. Критерий / для константы и регрессионных коэффициентов переменных «городское население» и «русское население» значим на уровне 0,0000001; 0,00005 и 0,007 соответственно. Нулевая гипотеза о случайности коэффициентов отвергается.
Дополнительная полезная статистика в анализе соотношения исходных и предсказанных значений зависимой переменной — расстояние Махаланобиса и расстояние Кука. Первое — мера уникальности случая (показывает, насколько сочетание значений всех независимых переменных для данного случая отклоняется от среднего значения по всем независимым переменным одновременно). Второе — мера влиятельности случая. Разные наблюдения по-разному влияют на наклон линии регрессии, и с помощью расстояния Кука можно сопоставлять их по этому показателю. Это бывает полезно при чистке выбросов (выброс можно представить как чрезмерно влиятельный случай).
В нашем примере к уникальным и влиятельным случаям, в частности, относится Дагестан.
Случай | Исходные значения | Предсказанные значения | Остатки | Расстояние Махаланобиса | Расстояние Кука |
Адыгея | 64,92 | 66,33 | -1,40 | 0,69 | 0,00 |
Республика Алтай | 68,60 | 69.91 | -1,31 | 6,80 | 0,01 |
Республика Бурятия | 60,75 | 65,56 | -4,81 | 0,23 | 0,01 |
Республика Дагестан | 79,92 | 71,01 | 8,91 | 10,57 | 0,44 |
Республика Ингушетия | 75,05 | 70,21 | 4,84 | 6,73 | 0,08 |
Республика Калмыкия | 68,52 | 69,59 | -1,07 | 4,20 | 0,00 |
Можем ли мы сравнивать «объяснительную силу» предикторов, исходя из значения коэффициента 61 В данном случае — да, так как обе независимые переменные имеют одинаковый процентный формат. Однако чаще всего множественная регрессия имеет дело с переменными, измеренными в разных шкалах (к примеру, уровень дохода в рублях и возраст в годах). Поэтому в общем случае сравнивать предсказательные возможности переменных по регрессионному коэффициенту некорректно. В статистике множественной регрессии для этой цели существует специальный бета-коэффициент (В), вычисляемый отдельно для каждой независимой переменной. Он представляет собой частный (вычисленный после учета влияния всех других предикторов) коэффициент корреляции фактора и отклика и показывает независимый вклад фактора в предсказание значений отклика. В парном регрессионном анализе бета-коэффициент по понятным причинам равен коэффициенту парной корреляции между зависимой и независимой переменной.
В нашем примере бета (Гор. нас.) = -0,43, бета (Рус. нас.) = -0,28. Таким образом, оба фактора отрицательно влияют на уровень электоральной активности, при этом значимость фактора урбанизации существенно выше значимости национального фактора. Совокупное влияние обоих факторов определяет около 38% вариации переменной «электоральная активность» (см. значение Л-квадрат).