Корреляционный анализ

Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимозависимостях только формируются. Умение работать с данной статистической техникой важно и в силу того, что она используется как составная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.

Целью корреляционного анализа является измерение стати -

стической взаимозависимости между двумя или более переменными. В случае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух — множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» — они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколько методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них — метод Пирсона (Реагзоп) . Его применение ограничено следующими условиями:

•переменные должны быть измерены, как минимум, на интервальном уровне;

• связь между переменными должна носить линейный характер, т. е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватного отображения;

•анализируемые переменные должны быть распределены нормально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статистической взаимосвязи между переменными:

• направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

• интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной переменной на основании значений другой.

Чтобы более наглядно представить себе особенности корреляционного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный анализ электората двух политических партий либеральной ориентации — Союза правых сил и «Яблока». Наша задача — понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федерации. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, поскольку выборы в Чеченской Республике не проводились) .

Случай

Переменные (%)

«Яблоко»

СПС

Республика Адыгея

4,63

3,92

Республика Алтай

3,38

5,40

Республика Башкортостан

3,95

6,04

Республика Бурятия

3,14

8,36

Республика Дагестан

0,39

1,22

Республика Ингушетия

2,89

0,38

Кабардино-Балкарская Республика

1,38

1,30

Республика Калмыкия

3,07

3,80

Карачаево-Черкесская Республика

4,17

2,94

Республика Карелия

9,66

10,25

Республика Коми

8,91

9,95

Республика Марий Эл

4,68

7.24

И т. д. (всего 88 случаев)

Здесь и далее результаты выборов взяты из (или рассчитаны на основе) официальных данных ЦИК РФ или ее территориальных подразделений.

Таким образом, у нас есть две переменные — «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне регионов РФ.

Далее, в нашем распоряжении есть методический прием, который является одним из основных в статистике, — геометрическое представление. Геометрическим представлением называют представление случая как точки в условном пространстве, формируемом «осями» — переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось X формирует признак «поддержка СПС», ось У— «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X — значение переменной «поддержка СПС» (процент, набранный в регионе данной партией); по оси У— значение переменной «поддержка "Яблока"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай — (3,38; 5,4) и т. д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.

Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квадратов расстояний от наблюдаемых точек до прямой является минимальной).

Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициенте корреляции (обозначается г), который и является числовым результатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г = 1 связь приобретает характер функциональной — все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статистической связи (подробнее об интерпретации коэффициента корреляции см. ниже).

Тип связи определяется наклоном линии регрессии. В коэффициенте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак «+» традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.

Сегодня коэффициент корреляции Пирсона можно легко подсчитать с помощью всех компьютерных пакетов программ статистического анализа (8Р88, 81аИ8Иса, N088 и др.) и даже в широко распространенной программе Ехсе1 (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.

Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод — именно зрительная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется бесполезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т. е. нетипичные, резко выделяющиеся случаи.

Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистрали», тенденции связи переменных. Это точка, представляющая данные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт-Петербурга.


Можно скорректировать данные анализа, удалив сильно отклоняющиеся наблюдения, т. е. произведя «чистку выбросов». В силу специфики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.

на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие — в сельских районах. Мы можем выдвинуть гипотезу, что одним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего опера-ционализировать через переменную «доля сельского населения» или «доля городского населения» . Такая статистика существует по каждому субъекту Федерации.

Теперь в наших исходных данных появляется третья переменная — пусть это будет «доля сельского населения» .

Случай

Переменные (%)

«Яблоко»

СПС

Сел. нас.

Республика Адыгея

4,63

3,92

46

Республика Алтай

3,38

5,40

76

Республика Башкортостан

3,95

6,04

36

И т. д. (всего 88 случаев)

Удалив только один из 88 случаев — Самарскую область, — мы получим значение коэффициента корреляции, отличное от полученного ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 — это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской областям, получим еще более высокую плотность: 0,77.

Впрочем, чисткой выбросов не следует увлекаться: сокращая количество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых критериев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ — содержательно понять, с чем связано наличие «выброса». Так, в нашем примере нетипичное положение Самарской области в признаковом пространстве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.

Возвратимся к нашему исследованию. Мы выяснили, что голосование за СПС и «Яблоко» довольно плотно коррелирует между собой

Чисто технически мы можем вычислять каждый парный коэффициент корреляции отдельно, но удобнее сразу получить матрицу интеркорреляций (матрицу парных корреляций). Матрица обладает диагональной симметрией. В нашем случае она будет выглядеть следующим образом:

СПС

«Яблоко»

Сел. нас.

СПС

1

0,62

-0,61

«Яблоко»

0,62

1

-0,55

Гор. нас.

-0,61

-0,55

1

Мы получили статистически значимые коэффициенты корреляции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Можно заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».

«Яблоко»

В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых переменных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность

Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская область и Усть-Ордынский Бурятский АО) плотность коэффициента для СПС увеличивается до -0,65.

избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.

Интерпретация интенсивности связи

Мы подошли к проблеме интерпретации интенсивности связи на основе значения коэффициента корреляции Пирсона. Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Традиционной можно считать следующую схему интерпретации данного коэффициента:

Значение

Интерпретация

До 0,2

Очень слабая корреляция

До 0,5

Слабая корреляция

До 0,7

Средняя корреляция

До 0,9

Высокая корреляция

Свыше 0,9

Очень высокая корреляция

Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораздо большей степени опирающихся на количественные данные, нежели наука политическая (например, в экономике). В эмпирических исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 — случай просто уникальный. Это связано прежде всего с особенностями мотивации политического поведения — сложной, многофакторной, нередко иррациональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию, не может целиком подчиняться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:

• 0,4 > г > 0,3 — слабая корреляция;

• 0,6 > г > 0,4 — средняя корреляция;

•г > 0,7 — сильная корреляция.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обнаружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной характеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных регионов России.

Устойчивость пропорционального распределения явки по субъектам Федерации достаточно просто проверяется методом корреляционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991—2004 гг. довольно четко демонстрирует существующую тенденцию. Статистическая связь наиболее сильна внутри одного электорального цикла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

1991

1993

1995

19961

1999

2000

2003

2004

1991

1

1993

0,83

1

1995

0,52

0,66

1

1996

0,43

0,47

0,76

1

1999

0,14

0,26

0,61

0,56

1

2000

0,13

0,15

0,34

0,47

0,74

1

2003

0,04

0,13

0,36

0,38

0,81

0,75

1

2004

0,04

0,10

0,11

0,21

0,55

0,66

0,73

1

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г = 0,76;

1999—2000: г = 0,74; 2003—2004: г= 0,73). На максимальной временной дистанции — между президентскими и парламентскими выборами 1991 — 1993 и 2003—2004 гг. — связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени происходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парламентских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определенная преемственность обнаруживается на протяжении восьми лет, в течение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свидетельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электоральной культуры территорий.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обнаружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной характеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных регионов России.

Устойчивость пропорционального распределения явки по субъектам Федерации достаточно просто проверяется методом корреляционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991—2004 гг. довольно четко демонстрирует существующую тенденцию. Статистическая связь наиболее сильна внутри одного электорального цикла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

1991

1993

1995

1996'

1999

2000

2003

"2004

1991

1

1993

0,83

1

1995

0,52

0,66

1

1996

0,43

0,47

0,76

1

1999

0,14

0,26

0,61

0,56

1

2000

0,13

0,15

0,34

0,47

0,74

1

2003

0,04

0,13

0,36

0,38

0,81

0,75

1

2004

0,04

0,10

0,11

0,21

0,55

0,66

0,73

1

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: /-= 0,83; 1995-1996: г= 0,76;

1999—2000: г= 0,74; 2003—2004: г= 0,73). На максимальной временной дистанции — между президентскими и парламентскими выборами 1991 — 1993 и 2003—2004 гг. — связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени происходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парламентских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определенная преемственность обнаруживается на протяжении восьми лет, в течение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свидетельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электоральной культуры территорий.

Другие коэффициенты корреляции

Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим числом категорий)?

В этих ситуациях рекомендуется вычислять коэффициенты корреляции рангов, наиболее известным из которых является коэффициент Спирмана. Ранговая корреляция оперирует логикой порядкового уровня: принимаются во внимание не абсолютные значения, а отношения порядка (возрастания и убывания). В какой-то мере ранговую корреляцию можно считать усложненной версией расчета показателя гамма (у), который мы рассматривали в качестве стандартной меры связи порядковых переменных.

Коэффициент корреляции Спирмана колеблется в том же интервале, что и коэффициент Пирсона — от 0 до ± 1. Принципы интерпретации значений коэффициента также идентичны. Дополнительно стоит отметить, что ранговая корреляция не чувствительна к выбросам, так как не чувствительна к абсолютным значениям вообще.