Метод К-средних

При всех сильных сторонах иерархического кластер-анализа он обладает одним существенным недостатком. С ним трудно работать при наличии большого числа объектов, так как дендрограммы становятся перегруженными и теряют наглядность. В таких случаях используют другой метод кластеризации — метод К-средних. Впрочем, этот метод весьма эффективен и при незначительном количестве объектов: его можно и нужно сочетать с древовидной классификацией для получения более надежных результатов.

Принципиальное отличие метода К-средних от иерархического кластер-анализа заключается в том, что исследователю необходимо изначально определить число кластеров, на которое требуется разбить изучаемую совокупность. Соответственно, желательно еще до начала анализа иметь гипотезу о структуре исследуемой совокупности. В ином случае рекомендуется «разведочный» алгоритм: сначала совокупность делится на два кластера, затем на три и так до тех пор, пока не будет найдено оптимальное число кластеров.

Вычислительный алгоритм кластеризации в методе К-средних можно проиллюстрировать простейшим примером. Предположим, мы имеем пять объектов — а, Ь, с, й, е, — для каждого из которых заданы координаты:

а

Ъ

с

й

е

X

1

3

2

10

9

У

1

2

0

11

12

Средние — кластер 1

Средние — кластер 2

X

2

9,5

У

1

11,5

Уже на диаграмме рассеяния мы видим, что объекты должны быть сгруппированы в два четких кластера. Однако к этому еще необходимо прийти математическим путем.

1. Центры кластеров (их число определено исследователем, в нашем случае их два) задаются случайным образом. Предположим, случайные координаты центра первого кластера (3;3), второго — (8;8).

2. Рассчитываются расстояния от центров кластеров до всех объектов (используется евклидово расстояние). В нашем случае матрица евклидовых расстояний будет такой:

а

Ъ

с

й

е

Центр 1

2,83

1

3,16

10,63

10,82

Центр 2

9,89

7,81

10

3,60

4,13

3. Объекты «приписываются» к тем кластерным центрам, к которым они ближе находятся. Так, объекты а, Ъ и с приписываются к первому кластеру, объекты й и е — ко второму.

5. Вычисленные средние становятся координатами нового центра каждого кластера.

6. Повторяются шаги 2—5 до момента, когда кластерные центры перестанут «мигрировать» и займут устойчивое положение.

В нашем простейшем случае это происходит уже на первой итерации. Координаты центра первого кластера — (2;1), второго — (9,5; 11,5). Расстояния от центров кластеров до всех объектов:

а

Ъ

с

й

е

Центр 1

1

1,4

1

13

12,9

Центр 2

13,5

11,5

13,7

0,7

0,7

Одна из проблем метода К-средних состоит в том, что результат классификации может оказаться зависимым от начальных позиций кластерных центров, которые выбираются случайно. Если существует несколько устойчивых положений центров кластеров, анализ остановится только на одном из них, не обязательно оптимально отражающем структуру изучаемой совокупности. Один из таких примеров приводится на рисунке ниже.

О О

©О о •

© у'' т

о

Целтры кластеров

Вернемся к нашему примеру с голосованием за политические партии и попробуем поработать с этими данными с помощью метода К-средних.

Сначала разобьем объекты на два кластера. Мы уже имеем представление о структуре совокупности благодаря ранее проведенному иерархическому анализу, поэтому можем сформулировать предположение о том, как произойдет разбиение. Скорее всего, оно будет соответствовать дендрограммам 1 и 2, поскольку метод К-средних использует евклидову метрику, т. е. мы получим классификацию «ОВР — все остальные».

Так и происходит (числа указывают расстояние каждого объекта до кластерного центра):

Кластер 1

«Яблоко»

«Единство»

БЖ

КПРФ

СПС

Расстояние

1,003274

1,826990

5,639210

3,332240

3,184501

Кластер 2

ОВР

Расстояние

0

При разбиении совокупности объектов на три кластера картина получается также вполне ожидаемая — в полном соответствии с нашей содержательной интерпретацией дендрограмм.

Сравнивая внутрикластерные расстояния, можно заметить, что кластер «"Единство" — БЖ» является менее плотным (однородным), нежели кластер «"Яблоко" — СПС — КПРФ». Это также вполне согласуется с результатами иерархического кластер-анализа. Кроме того, с помощью данных о расстоянии объекта до центра кластера можно определить, насколько «типичным» является данный объект для кластера. Иными словами, находится ли он на периферии (и, следовательно, вполне может быть «притянут» другим кластером) или непосредственно возле центра кластера (т. е. является типичным представителем кластера).

Кроме принадлежности объектов к кластерам и размера расстояний до кластерных центров метод К-средних может дать нам и другую полезную информацию, в частности позволит узнать координаты каждого кластерного центра. В нашем случае их будет 16 (по числу районов).

Район

Номер кластера

3

1

2

Алексеевский

3,93

39,83

12,77

Алтуфьевский

5,56

43,57

9,42

Бабушкинский

4,86

42,03

10,71

Бибирево

6,40

40,25

10,47

Бутырский

4,83

40,51

11,45

Лианозово

4,94

45,20

9,71

Лосиноостровский

4,46

43,64

10,85

Марфино

4,69

44,25

10,51

Марьина Роща

4,67

41,07

11,43

Останкинский

3,85

39,97

12,52

Отрадное

5,06

42,42

10,57

Ростокино

4,60

41,66

11,11

Свиблово

4,55

43,16

10,49

Северное Медведково

4,94

45,27

9,83

Южное Медведково

4,72

44,52

10.19

Ярославский

4,78

44,25 10,31

Можно классифицировать любой объект, не участвовавший в анализе, зная его значения по переменным и координаты центров (в нашем случае — еще одна партия с результатами голосования по районам). Для этого надо вычислить расстояния (в евклидовой метрике) до центра первого, второго и третьего кластеров и отнести объект к ближайшему из них.

Мы также имеем данные расстояний между кластерными центрами. В нашем случае наиболее удаленным от всех других является кластер с единственным объектом — ОВР (№ 1).

№ 1

№ 2

№ 3

№ 1

№ 2

31,9

№ 3

37,8

6,1

Профессиональные статистические программы позволяют просматривать результаты дисперсионного анализа переменных, по которым проходит классификация объектов методом К-средних. Так, можно оценить вклад каждой переменной в разбиение совокупности на кластеры. Об этом свидетельствуют следующие показатели:

• насколько кластеры различаются между собой по этой переменной (межгрупповая дисперсия);

• вариативность объектов внутри кластера по данной переменной (внутригрупповая дисперсия);

• отношение межгрупповой и внутригрупповой дисперсий (А-от-ношение). Чем сильнее различия между кластерами и чем выше однородность объектов внутри кластеров, тем больше /"-отношение.

Рассмотрим некую «инверсию» нашего примера с голосованием за партии в Москве: в качестве объектов классификации возьмем районы Северо-Восточного АО, а в качестве переменных — политические партии. Разбив совокупность из 16 районов на 4 кластера, посмотрим на статистику дисперсионного анализа:

Межгрупповая дисперсия

Вну тр игрупповая дисперсия

г

Р-отношение

«Яблоко»

5,96

2,23

10,67

«Единство»

4,31

6,07

2,84

БЖ

2,20

1,63

5,40

ОВР

48,59

4,83

40,22

КПРФ

3,09

4,72

2,61

СПС

35,41

3,30

42,95

Как видим, вклад переменных в формирование кластеров очень неравномерен. Кластерообразующими являются прежде всего переменные СПС и ОВР.

Кластер-анализ в исследовании образов политических лидеров

Одна из сфер применения кластер-анализа, наряду с исследованиями электорального поведения, — изучение образов политиков, формирующихся в сознании населения.

Подобные исследования прежде всего требуют особым способом представленной исходной информации. Сам по себе образ политика как субъективное отражение его личности — сложная, синкретичная совокупность представлений, ощущений, оценок, ассоциаций. Непосредственный анализ образа статистическими методами невозможен. Поэтому в политической психологии и социологии существует прием «разложения» целостного образа на совокупность признаков, которые выступают его дескрипторами. Наиболее часто в качестве дескрипторов берутся качества, которые респондент приписывает (или не приписывает) данному политику.

Ниже приводятся данные социологического опроса, проведенного Всероссийским центром изучения общественного мнения (ВЦИОМ) в марте—апреле 2000 г. Исследование было посвящено представлениям о личных качествах российских политиков (В. В. Путин, Е. М. Примаков, ГА. Зюганов, ГА. Явлинский, В. В. Жириновский, Б. Н. Ельцин) в глазах населения. Основным вопросом анкеты был: «Какие из перечисленных качеств российских политиков в наибольшей степени свойственны... ?» Ниже в таблице приводятся результаты исследования (данные стандартизированы — переведены из числового в процентный формат).

Путин

Примаков

Зюганов

Явлинский

Жириновский

Ельцин

Опыт политической деятельности

5,8

25,0

22,1

16,8

10,1

20,2

Активность, энергичность

32,5

3,8

9,6

11,5

37,6

5,1

Профессиональные, интеллектуальные качества

17,5

31,5

16,1

22,4

4,9

7,7

Умение связно излагать свои мысли

23,2

14,8

15,5

26,1

16,9

3,5

Путин

Примаков

Зюганов

Явлинский

Жириновский

Ельцин

Сдержанность, рассудительность

22,2

27,8

20,6

17,5

0,8

11,1

Волевые качества, мужественность

35,9

7,8

12,5

7,8

18,0

18,0

Культура, образованность

18,0

26,1

10,8

37,8

2,7

4,5

Государственный подход к решению проблем

23,5

27,5

19,6

12,7

5,9

10,8

Четкая, последовательная политическая линия

19,4

16,5

31,1

16,5

7,8

8,7

Стремление к порядку и законности

31,5

14,6

20,2

12,4

14,6

6,7

Независимость

11,9

10,9

9,9

18,8

29,7

18,8

Честность, порядочность

20,2

33,3

22,6

14,3

2,4

7,1

Личное обаяние

32,9

16,5

6,3

20,3

12,7

11,4

Опыт хозяйственной деятельности

6,0

28,6

20,2

10,7

3,6

31,0

Уважительное отношение к простым людям

19,6

14,3

41,1

12,5

3,6

8,9

Готовность защищать интересы простых людей

19,3

12,3

38,6

10,5

12,3

7,0

Гибкость, способность к компромиссам

19,3

21,1

8,8

21,1

10,5

19,3

Открытость, доступность

18,2

9,1

20,5

11,4

27,3

13,6

Бескорыстность

18,2

----------- !

18,2

13,6

22,7

9,1

18,2

Продолжение

Используя иерархический кластер-анализ, получим дендро-грамму:

0,4 0,6 0,8 1,0 12 1,4 1,6 1,8 2,0

Отдельный кластер образуют образы Путина и Жириновского, причем этот кластер наиболее удален от всех остальных объектов. Также отдельный кластер формируют образы Примакова и Явлинского. Образы Зюганова и Ельцина можно рассматривать и как кластер, и как два изолированных объекта — «расстояние» между ними достаточно велико.

На первый взгляд, полученные результаты вызывают удивление (особенно близость Жириновского и Путина). Проверим их с помощью метода К-средних. При разбиении на два кластера полу -

чим:

Кластер

Расстояние

Путин

2

6,9

Примаков

1

6,2

Зюганов

1

8,9

Явлинский

1

6,8

Жириновский

2

6,9

Ельцин

1

8,1

Используя эти данные, мы можем оценить сходство/различия образов политиков в многомерном пространстве дескрипторов, эти образы фиксирующих. В результате образы политиков становятся объектами (наблюдениями) многомерной классификации, а дескрипторы — классифицирующими переменными.

Эти данные в целом соответствуют результатам, полученным с помощью древовидной кластеризации. Так, совершенно четко выделен кластер, включающий образы Путина и Жириновского. Образы Явлинского и Примакова значительно ближе к центру второго кластера (6,8 и 6,2), чем образы Ельцина (8,1) и Зюганова(8,9). Причины появления именно такой картины сходства образов вытекают из результатов дисперсионного анализа, представленных в таблице:

Межгрупповая дисперсия

Внутригрупповая дисперсия

/•-отношение

Опыт политической деятельности

228,85

44,67

20,49

Ахтивность, энергичность

1011,84

52,23

77,49

Профессиональные, интеллектуальные качества

90,02

381,80

0,94

Умение связно излагать свои мысли

34,76

274,38

0,51

Сдержанность, рассудительность

79,84

373,68

0,85

Волевые качества, мужественность

317,43

231,48

5,49

Культура, образованность

119,31

797,42

0,60

Государственный подход к решению проблем

11,53

326,80

0,14

Четкая, последовательная политическая линия

28,36

328,73

0,35

Стремление к порядку и законности

121,62

235,45

2,07

Независимость

51,06

230,12

0,89

Честность, порядочность

86,10

540,32

0,64

Личное обаяние

112,30

315,25

1,42

Опыт хозяйственной деятельности

425,17

255,10

6,67

Уважительное отношение к простым людям

76,80

782,05

0,39

Готовность защищать интересы простых людей

2,31

654,82

0,01

Гибкость, способность к компромиссам

9,23

143,12

0,26

Открытость, доступность

110,19

113,64

3,88

Бескорыстность

27,55

82,64

1,33

В этом примере, как и в предыдущем, переменные очень неравномерно распределены по «вкладу» в формирование кластеров. Так, абсолютным «лидером» является дескриптор, связанный с активностью и энергичностью (/-отношение равно 77,5). Если мы посмотрим на исходные данные, то увидим: именно эти качества в наибольшей степени выражены, по мнению респондентов, у Путина и Жириновского. Кроме того, их образы объединяет высокая оценка волевых качеств, а это также «весомый» дескриптор (/"-отношение равно 5,5). По двум другим «сильным» дескрипторам — политическому (20,5) и хозяйственному (6,7) опыту — образы Жириновского и Путина существенно уступают образам других политиков (не будем забывать, что опрос проводился в начале 2000 г., совпавшем с началом первого президентского срока Путина).

Разумеется, полученные результаты позволяют сделать еще целый ряд выводов. Кроме того, на материале исследования качеств политических лидеров можно составить представление о структуре самих дескрипторов: какие группы сходства они образуют. К этой теме мы еще вернемся в рамках изучения факторного анализа.

4.7. Дискриминантный анализ

Дискриминантный анализ, наряду с алгоритмами кластер-анализа, относится к методам многомерной классификации. Однако если кластер-анализ устанавливает близость/удаленность объектов в многомерном признаковом пространстве, то дискриминантный анализ определяет принадлежность объекта к одной из нескольких (как правило, двух) заданных заранее групп. Многомерный характер метода объясняется тем, что решение о принадлежности объекта к группе определяется на основе анализа его значений по нескольким независимым переменным. Иначе говоря, дискриминантный анализ устанавливает, какие переменные лучше всего различают (дискриминируют) две или более группы. Группирующая переменная имеет порядковое или номинальное измерение, как в уже изученном нами примере с активными и пассивными избирателями.

В такой формулировке цель дискриминантного анализа похожа на цель дисперсионного анализа, но дискриминантный анализ является гораздо более мощным статистическим инструментом. Во-первых, в данном методе корректно использовать независимые переменные, измеренные и на порядковом, и на номинальном уровнях, и — что особенно важно — на интервальном уровне. Так, в дисперсионном анализе переменную «возраст» мы были вынуждены приводить к порядковому виду (младший — средний — старший), что имело следствием потерю информации и ухудшение качества классификации. Очевидно, что интервальная переменная «возраст» является лучшим предиктором участия в выборах, чем вероятность «человек старшего возраста скорее пойдет на выборы, чем человек младшего возраста». Во-вторых, дискриминантный анализ использует несколько независимых переменных, выстраивает целостную модель классификации объектов.

Модель дискриминантного анализа очень напоминает модель множественной регрессии (в целом дискриминантный анализ как бы

и*

«вбирает в себя», синтезирует черты нескольких более простых методов, изученных нами ранее). В центре дискриминантного анализа — вычисление так называемой дискриминантной функции. По аналогии с регрессией она рассчитывается как сумма «вклада» факторных переменных в изменение зависимой переменной:

а = Ь1х,+Ь2х2+... + Ь„Х„ +а,

где й — значение дискриминантной функции, по которому судят о принадлежности объекта к тому или иному классу; X] — хп — значения переменных, соответствующих рассматриваемым случаям; Ъ] — Ьп — коэффициенты, определяющие вклад каждой независимой переменной в итоговый результат; а — константа.

Именно коэффициенты вклада и константу рассчитывает дискри-минантный анализ, причем таким образом, чтобы значение функции (й) с максимально возможной точностью показывало принадлежность объекта к классу.

Расчет дискриминантной функции может осуществляться тремя основными способами:

• стандартным, предполагающим включение в анализ всех независимых переменных одновременно;

• пошаговым с включением, предполагающим включение в модель на первом шаге переменной, которая лучше всего дискриминирует зависимую переменную, на втором — вторую по «вкладу» независимую переменную и т. д.;

• пошаговым с исключением, когда все переменные будут сначала включены в модель, а затем на каждом шаге будут удаляться вносящие малый вклад в предсказания. Этот метод оптимален, когда исследователь желает оставить в модели только те факторы, которые являются сильными предикторами зависимой переменной.

Стандартный метод, как правило, используется в том случае, если число независимых переменных относительно невелико и каждая из них обладает предсказательной силой по отношению к зависимой переменной. В ситуации поискового исследования (когда в анализ включается большое число переменных, причем в отношении «предсказательной силы» многих из них сформулированы лишь самые общие предположения) рекомендуется пошаговый метод с исключением. Он позволит «очистить» модель от явно слабых предикторов. К тому же всегда полезно сопоставление результатов, полученных разными методами.

Рассмотрим пример. Пусть зависимой (группирующей) переменной, как и ранее, будет участие/неучастие в выборах. Это номинальная дихотомическая переменная с двумя значениями: 0 (неучастие); 1 (участие). В качестве независимых переменных возьмем:

• Возраст — интервальная переменная, годы;

• Пол — номинальная переменная (1 — мужской, 2 — женский);

• Доход — интервальная переменная, тыс. руб. Имеем следующие исходные данные (пример учебный):

Возраст

Пол

Доход

Участие

Возраст

Пол

Доход

Участие

87

10

1

16

77

2

4

19

I

0

17

35

2

6

з

35

2

0

18

51

2

0,9

42

0,6

0

19

40

2

12

5

19

3

0

20

33

2

2

6

38

2

5

1

21

21

8

7

54

2

8

1

22

84

2

8

76

2

3

1

23

67

4

9

22

2

2

0

24

24

1

10

34

2

2,5

0

25

43

15

11

60

2

1

26

39

2

9

12

20

3

0

27

45

2

6

13

54

0,7

0

28

55

2

7

14

48

0,5

0

29

70

2

2,2

15

35

0,9

0

30

46

2

3

Вычислительный алгоритм дискриминантного анализа относительно сложен, и мы не будем здесь рассматривать его подробно. Скажем лишь, что в нем используются элементы дисперсионного анализа, а ключевые вычислительные процедуры базируются на алгоритмах канонического анализа. Этот метод, как и изученный нами метод Пирсона, выявляет корреляции, но не между двумя переменными, а между двумя множествами переменных.

Остановимся на интерпретации ключевых позиций весьма обширной итоговой статистики дискриминантного анализа.

В первую очередь (как и в регрессионном анализе) рассматривается статистика, свидетельствующая о качестве полученной модели. Сначала анализируется дисперсионная статистика для изучаемых переменных, которая включает:

• таблицу средних значений каждой переменной для: (а) группы «неучаствующих» (участие = 0), (б) группы «участвующих» (участие = 1) и (в) обеих групп вместе;

•значения теста на значимость различий средних переменных в группах «участвующих» и «неучаствующих». В качестве тестовой величины в дискриминантном анализе обычно служит лямбда (X) Уилка (\УИк'8 ЬатЬда), иногда используется и простой дисперсионный анализ.

Средние значения переменных

Группа

Возраст

Пол

Доход

Участие = 0

54,89

1,67

5,2

Участие = 1

32,08

1,25

9,73

Обе группы

45,77

1,5

7,01

Значимость различий средних значений

Лямбда Уилка

/)-значение

Возраст

0,619915

0,000305

Пол

0,408189

0,123504

Доход

0,538459

0,002121

й = 0,05 х Возраст,, + 0,81 х Пол„ + 0,29 х Доход,- - 4,69.

Нестандартизированные коэффициенты нельзя сравнивать непосредственно. Фактически это прямой аналог коэффициента Ъ в множественном регрессионном анализе. Стандартизированные же коэффициенты отражают «вклад» каждой независимой переменной в изменение зависимой и в этом отношении являются прямыми аналогами бета-коэффициентов множественной регрессии. Наши предположения, основанные на анализе дисперсионной статистики, подтвердились: самым весомым фактором оказался возраст (стандартизированный коэффициент 0,85), несколько слабее фактор уровня доходов (0,74), существенно слабее — фактор половой принадлежности (0,38).

Используя нестандартизированные коэффициенты, мы можем вычислить все значения дискриминантной функции для наших случаев. К примеру, значение й для случая 1 составит:

й= 3,54 = 0,05 х 87 + 0,81 х 1 + 0,29 х 10 - 4,69.

Возраст

Пол

Доход

Участие

й

Возраст

Пол

Доход

Участие

й

1

87

10

1

3,54

16

77

2

4

2,11

2

19

1

0

-2,60

17

35

2

6

0,49

3

~35~~

2

0

-1,47

18

51

2

0,9

-0,14

4

42

0,6

0

-1,51

19

40

2

12

2,47

5

19

3

0

-2,02

20

33

2

2

-0,76

6

38

2

5

1

0,36

21

21

8

-0,49

7

54

2

8

1

2,05

22

84

2

1,09

8

76

2

3

1

1,77

23

67

4

0,77

9

22

0

-1,34

24

24

1

-2,34

10

34

2

2,5

0

-0,57

25

43

1,5

-1,20

11

60

2

1

-0,17

26

39

2

9

1,55

12

20

3

0

-1,97

27

45

2

6

1,01

13

54

0,7

0

-0,85

28

55

2

7

1,82

14

48

0,5

0

-1,22

29

70

2

2,2

1,23

15

35

0,9

0

-1,79

30

46

2

3

0,20

Для случая 2й= -2,6 = 0,05 х 19 + 0,81 х 1 + 0,29 х 1 - 4,69 и т. д.


Гипотеза о различии средних полностью подтвердилась для переменных «возраст» и «доход». Переменная «пол» не проходит тест на уровне /КО,05, однако пока что (в учебных целях) оставим ее в модели.

Теперь можно сделать предположение об «удельном весе» каждой переменной в конечной дискриминантной функции, исходя из /ьзначения лямбды Уилка. Так, наибольший вклад в дискриминацию внесет переменная «возраст», для которой р-значение самое низкое — 0,000305. На втором месте «доход», на третьем — с большим отставанием — «пол».

Рассчитанные коэффициенты самой дискриминантной функции представлены в стандартизированном и нестандартизированном виде (округлены до второго знака после запятой); в статистических программах они обозначаются как 8(апдагд1гед (1_1п81апдагсН2ес1) Сапошса! 018спт1пап1 РипсИоп Соеп! с1еп(8.

Стандартизированные коэффициенты

Нестандартизированные коэффициенты

Возраст

0,85

Возраст

0,05

Пол

0,38

Пол

0,81

Доход

0,74

Доход

0,29

Константа

-4,69

Нестандартизированные коэффициенты — это те, по которым, собственно, и рассчитываются значения дискриминантной функции (множители заданных значений переменной). В нашем случае:

Но каким образом по значению функции определить, к какой группе принадлежит объект? Для этого рассчитываются так называе

Предсказания

Всего

Участие = 0

Участие = 1

Исходные

12

0

12

2

16

18

%

100

0

100

11,11

88,89

100

Всего

93,3% случаев классифицированы корректно

Результаты классификации

мые групповые центроиды дискриминантной функции. Делается это очень просто: рассчитываются средние значения дискриминантной функции для группы «участвующих» (участие = 1) и для группы «неучаствующих» (участие = 0). В нашем случае:

Групповые центроиды

Участие = 0

-1,54

Участие = 1

1,03

Именно групповые центроиды являются «критериями» для отнесения объекта к той или иной группе. Вычисляется расстояние между значением дискриминантной функции в конкретном случае и обоими центроидами. Если значение ближе к центроиду группы «участие = 0», объект классифицируется как принадлежащий к группе «неучаст-вующих», и наоборот.

Наличие подсчитанных значений дискриминантной функции позволяет дополнительно оценить качество модели. Так, мерами удач-ности дискриминантной функции служат:

• канонический корреляционный коэффициент между ее значениями и показателем принадлежности к группе. В нашем примере он равен 0,793, что свидетельствует о достаточно высоком качестве модели;

•лямбда Уилка, показывающая, значимо ли в обеих группах (участвующих и неучаствующих) различие в средних значениях дискрими-нантной функции. В нашем случае р = 0,0000009, что свидетельствует об очень высокой значимости;

• собственное значение (е1§епуа1ие), соответствующее отношению суммы квадратов между группами к сумме квадратов внутри групп. Это значение можно получить, проведя дисперсионный анализ значений дис-криминантной функции по переменной «участие». Чем больше собственное значение (относительно 1), тем лучше подобрана функция. В нашем случае е1§епуа1ие = 1,69, что также можно считать хорошим показателем.

Однако наиболее комплексным показателем качества модели является сопоставление результатов классификации, произведенной с помощью дискриминантной функции по значениям независимых переменных, и исходных значений зависимой переменной. Проще говоря, нас интересует процент соответствия предсказаний модели и истинных значений. В нашем случае модель неверно классифицировала два случая из 30, что составляет 6,6%. Правильно классифицированных случаев — 28,

или 93,3%:

Как видно из итоговой таблицы, два «активных» избирателя были ошибочно классифицированы как «пассивные» (в нашем примере это случаи 21 и 25). Постарайтесь самостоятельно определить, почему именно эти случаи оказались «ошибочными».

Если бы мы использовали для тех же самых данных пошаговый анализ с исключением, то переменных в модели оказалось бы всего две: «возраст» и «доход». При этом ее качество снизилось бы очень несущественно. Это означает, что обычно интервальные переменные являются куда лучшими предикторами, чем номинальные.

Стандартный метод (три переменные в модели)

Пошаговый метод с исключением (две переменные в модели)

р-значение лямбды Уилка

0,0000009

0,000006

Канонический коэффициент корреляции

0,793

0,769

Собственное значение

1,69

1,45

Процент корректно классифицированных случаев

93,3

93,3

4.8. Факторный анализ

Факторный анализ является одним из наиболее мощных статистических средств анализа данных. В его основе лежит процедура объединения групп коррелирующих друг с другом переменных («корреляционных плеяд» или «корреляционных узлов») в несколько факторов. Иными словами, цель факторного анализа — сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более емких внутренних характеристик, которые, однако, не поддаются непосредственному измерению (и в этом смысле являются латентными).

Для примера гипотетически представим себе законодательный орган регионального уровня, состоящий из 100 депутатов. В числе разных вопросов повестки дня на голосование выносятся: а) законопроект, предлагающий восстановить памятник В. И. Ленину на центральной площади города — административного центра региона; б) обращение к Президенту РФ с требованием вернуть в государственную собственность все стратегические производства. Матрица сопряженности показывает следующее распределение голосов депутатов:

Памятник Ленину (за)

Памятник Ленину (против)

Обращение к Президенту (за)

49

4

Обращение к Президенту (против)

6

41

Очевидно, что голосования статистически связаны: подавляющее большинство депутатов, поддерживающих идею восстановления памятника Ленину, поддерживают и возвращение в государственную собственность стратегических предприятий. Аналогичным образом большинство противников восстановления памятника являются в то же время и противниками возврата предприятий в госсобственность. При этом тематически голосования между собой совершенно не связаны.

Логично предположить, что выявленная статистическая связь обусловлена существованием некоторого скрытого (латентного) фактора. Законодатели, формулируя свою точку зрения по самым разнообразным вопросам, руководствуются ограниченным, небольшим набором политических позиций. В данном случае можно предположить наличие скрытого раскола депутатского корпуса по критерию поддержки/отвержения консервативно-социалистических ценностей. Выделяется группа «консерваторов» (согласно нашей таблице сопряженности — 49 депутатов) и их оппонентов (41 депутат). Выявив такие расколы, мы сможем описать большое число отдельных голосований через небольшое число факторов, которые являются латентными в том смысле, что мы не можем их обнаружить непосредственно: в нашем гипотетическом парламенте ни разу не проводилось голосование, в ходе которого депутатам предлагалось бы определить свое отношение к консервативно-социалистическим ценностям. Мы обнаруживаем наличие данного фактора, исходя из содержательного анализа количественных связей между переменными. Причем, если в нашем примере сознательно взяты номинальные переменные — поддержка законопроекта с категориями «за» (1) и «против» (0), — то

Более подробно об использовании факторного анализа в исследовании парламентских голосований см.: Сатаров, Г. А, Российские съезды // Российский монитор 1992-1993. № 1-3.

в действительности факторный анализ эффективно обрабатывает интервальные данные.

Факторный анализ очень активно используется как в политической науке, так и в «соседних» социологии и психологии. Одна из важных причин большой востребованности данного метода состоит в разнообразии задач, которые можно решать с его помощью. Так, выделяются по крайней мере три «типовые» цели факторного анализа:

'уменьшение размерности (редукция) данных. Факторный анализ, выделяя узлы взаимосвязанных признаков и сводя их к неким обобщенным факторам, уменьшает исходный базис признаков описания. Решение этой задачи важно в ситуации, когда объекты измерены большим числом переменных и исследователь ищет способ сгруппировать их по смысловому признаку. Переход от множества переменных к нескольким факторам позволяет сделать описание более компактным, избавиться от малоинформативных и дублирующих переменных;

•выявление структуры объектов или признаков (классификация). Эта задача близка к той, которая решается методом кластер-анализа. Но если кластер-анализ принимает за «координаты» объектов их значения по нескольким переменным, то факторный анализ определяет положение объекта относительно факторов (связанных групп переменных). Иными словами, с помощью факторного анализа можно оценить сходство и различие объектов в пространстве их корреляционных связей, или в факторном пространстве. Координатными осями факторного пространства выступают полученные латентные переменные, на эти оси проецируются рассматриваемые объекты, что позволяет создать наглядное геометрическое представление изучаемых данных, удобное для содержательной интерпретации;

• косвенное измерение. Факторы, являясь латентными (эмпирически не наблюдаемыми), не поддаются непосредственному измерению. Однако факторный анализ позволяет не только выявить латентные переменные, но и оценить количественно их значение для каждого объекта.

Рассмотрим алгоритм и интерпретацию статистики факторного анализа на примере данных о результатах парламентских выборов в Рязанской области 1999 г. (общефедеральный округ). Для упрощения примера возьмем электоральную статистику только по тем партиям, которые преодолели 5%-ный барьер. Данные взяты в разрезе территориальных избирательных комиссий (по городам и районам области).

Первым шагом будет стандартизация данных путем перевода их в стандартные баллы (так называемые "-баллы, рассчитываемые с помощью функции нормального распределения).

ТИК

(территориальная избирательная комиссия)

«Яблоко»

«Единство»

Блок Жириновского (БЖ)

ОВР

КПРФ

СПС

Ермишинская

1,49

35,19

6,12

5,35

31,41

2,80

Захаровская

2,74

18,33

7,41

11,41

31,59

Абз "

Кадомская

1,09

29,61

8,36

5,53

35,87

1,94

Касимовская

1,30

39,56

5,92

5,28

29,96

2,37

Касимовская городская

3,28

39,41

5,65

6,14

24,66

4,61

То же в стандартизированных баллах (г-баллах)

Ермишинская

-0,83

1,58

-0,25

-0,91

-0,17

-0,74

Захаровская

-0,22

-1,16

0,97

0,44

-0,14

0,43

Кадомская

-1,03

0,67

1,88

-0,87

0,59

-1,10

Касимовская

-0,93

2,29

-0,44

-0,92

-0,42

-0,92

Касимовская городская

0,04

2,26

-0,70

-0,73

-1,32

0,01

И т. д. (всего 32 случая)

Далее на стандартизированных данных рассчитывается матрица парных корреляций (интеркорреляций):

«Яблоко»

«Единство»

БЖ

ОВР

КПРФ

СПС

«Яблоко»

«Единство»

-0,55

БЖ

-0,47

0,27

ОВР

0,60

-0,72

-0,47

КПРФ

-0,61

0,01

0,10

-0,48

СПС

0,94

-0,45

-0,39

0,52

-0,67

Уже визуальный анализ матрицы парных корреляций позволяет сделать предположения о составе и характере корреляционных плеяд. К примеру, положительные корреляции обнаруживаются для «Союза правых сил», «Яблока» и блока «Отечество — вся Россия» (пары «Яблоко» - ОВР, «Яблоко» - СПС и ОВР - СПС). Одновременно эти три переменные отрицательно коррелируют с КПРФ (поддержка КПРФ), в меньшей степени — с «Единством» (поддержка «Единства») и в еще меньшей — с переменной БЖ (поддержка «Блока Жириновского»). Таким образом, предположительно мы имеем две выраженные корреляционные плеяды:

• («Яблоко» + ОВР + СПС) — КПРФ;

• («Яблоко» + ОВР + СПС) - «Единство».

Это две разные плеяды, а не одна, так как между «Единством» и КПРФ связи нет (0,01). Относительно переменной БЖ предположение сделать сложнее, здесь корреляционные связи менее выражены.

Чтобы проверить наши предположения, необходимо вычислить собственные значения факторов (е1§епуа1ие8), факторные значения (Гас1ог 8соге8) и факторные нагрузки (Гас1ог 1оасНп§8) для каждой переменной. Такие расчеты достаточно сложны, требуют серьезных навыков работы с матрицами, поэтому здесь мы не станем рассматривать вычислительный аспект. Скажем лишь, что эти вычисления могут осуществляться двумя путями: методом главных компонент (рппс1ра1 сотропеп!8) и методом главных факторов (рппс1ра1 Гас1ог8). Метод главных компонент более распространен, статистические программы используют его «по умолчанию».

Остановимся на интерпретации собственных значений, факторных значений и факторных нагрузок.

Собственные значения факторов для нашего случая таковы:

Фактор

Собственное значение

% общей вариации

1

3,52

58,75

2

1,14

19,08

3

0,76

12,64

4

0,49

8.22

5

0,05

0.80

6

0,03

0,51

Всего

6

100%

Чем больше собственное значение фактора, тем больше его объяснительная сила (максимальное значение равно количеству переменных, в нашем случае 6). Одним из ключевых элементов статистики факторного анализа является показатель «% общей вариации» (% 1о1а1 уапапсе). Он показывает, какую долю вариации (изменчивости) переменных объясняет извлеченный фактор. В нашем случае вес первого фактора превосходит вес всех остальных факторов, вместе взятых: он объясняет почти 59% общей вариации. Второй фактор объясняет 19% вариации, третий — 12,6% и т. д. по убывающей.

Имея собственные значения факторов, мы можем приступить к решению задачи сокращения размерности данных. Редукция произойдет за счет исключения из модели факторов, обладающих наименьшей объяснительной силой. И здесь ключевой вопрос состоит в том, сколько факторов оставить в модели и какими критериями при этом руководствоваться. Так, явно лишними являются факторы 5 и 6, в совокупности объясняющие чуть более 1% всей вариации. А вот судьба факторов 3 и 4 уже не столь очевидна.

Как правило, в модели остаются факторы, собственное значение которых превышает единицу (критерий Кайзера). В нашем случае это факторы 1 и 2. Однако полезно проверить корректность удаления четырех факторов с помощью других критериев. Одним из наиболее широко используемых методов является анализ «графика осыпи» (зсгее р1о(). Для нашего случая он имеет вид: воспроизведенных корреляций содержит коэффициенты, которые удалось восстановить по двум оставленным в модели факторам. Особое значение в ней имеет главная диагональ, на которой расположены общности переменных (в таблице выделены курсивом), которые показывают, насколько точно модель воспроизводит корреляцию переменной с той же переменной, которая должна составлять единицу.

Матрица остаточных коэффициентов содержит разность между исходным и воспроизведенным коэффициентами. Например, воспроизведенная корреляция между переменными СПС и «Яблоко» составляет 0,88, исходная - 0,94. Остаток = 0,94 - 0,88 = 0,06. Чем ни -

Воспроизведенные корреляции

«Яблоко»

«Единство»

БЖ

ОВР

КПРФ

СПС

«Яблоко»

0,89

«Единство»

-0,53

0,80

БЖ

-0,47

0,59

0,44

ОВР

0,73

-0,72

-0,56

0,76

КПРФ

-0,70

0,01

0,12

-0,34

0,89

СПС

0,88 -0,43

-0,40

0,66

-0,77

0,88

Остаточные коэффициенты

«Яблоко»

«Единство»

БЖ

ОВР

КПРФ

СПС

«Яблоко»

0,11

«Единство»

-0,02

0,20

БЖ

0,00

-0,31

0,56

ОВР

-0,13

-0,01

0,09

0,24

КПРФ

0,09

0,00

-0,02

-0,14

0,11

СПС

0,06

-0,03

0,01

-0,14

0,10

0,12

же значения остатков, тем выше качество модели.

1 2 3 4 5 6 7

1 2 3 4 5 6 7


График получил свое название из-за сходства со склоном горы. «Осыпь» — геологический термин, обозначающий обломки горных пород, скапливающиеся в нижней части скалистого склона. «Скала» — это по-настоящему влиятельные факторы, «осыпь» — статистический шум. Образно говоря, нужно найти место на графике, где кончается «скала» и начинается «осыпь» (где убывание собственных значений слева направо сильно замедляется). В нашем случае выбор нужно сделать из первого и второго перегибов, соответствующих двум и четырем факторам. Оставив четыре фактора, мы получим очень высокую точность модели (более 98% общей вариации), но сделаем ее достаточно сложной. Оставив два фактора, мы будем иметь значительную необъясненную часть вариации (около 22%), но модель станет лаконичной и удобной в анализе (в частности, визуальном). Таким образом, в данном случае лучше пожертвовать некоторой долей точности в пользу компактности, оставив первый и второй факторы.

Проверить адекватность полученной модели можно с помощью специальных матриц воспроизведенных корреляций (гергодисед согге-1аИопз) и остаточных коэффициентов (ге81диа1 согге1аИопз). Матрица

Как видно из матриц, двухфакторная модель, будучи в целом адекватной, плохо объясняет отдельные связи. Так, очень низкой является общность переменной БЖ (всего 0,56), слишком велико значение остаточного коэффициента связи БЖ и «Единства» (-0,31).

Теперь необходимо решить, насколько важным для данного конкретного исследования является адекватное представление переменной БЖ. Если важность высока (к примеру, если исследование посвящено анализу электората именно этой партии), корректно вернуться к четырехфакторной модели. Если нет, можно оставить два фактора.

Принимая во внимание учебный характер наших задач, оставим более простую модель.

отложим нагрузки переменных на фактор 1, по оси У— нагрузки переменных на фактор 2 и получим двухмерное факторное пространство.

«Единство»

СПС

о

"Яблоке

БЖ

О

0 г

1

КПРФ

-0,8

-0,4 -0,0

Фактор 1

0,4

0.8


л л 11

* о

О рэ

О о

значения факторной переменной
для каждого случая (наблюдения). В нашем примере факторов два со-
ответственно и факторных значений для каждого случая два - '

о

е

е

ТИК (территориальная избирательная комиссия)

О

1

Ермишинская

-0,83

1,58

-0,25

-0,91

-0,17

-0,74

0,85

0,79

Захаровская

-0,22

-1,16

0,97

0,44

-0,14

0,43

-0,24

-0,25

] Кадомская

-1,03

0,67 I

1,88

-0,87

0,59

-1,10

1,29

0,40

(К асимовская

-0,93

2,29

-0,44

-0,92

-0,42

-0,92

0,98

1,21

Касимовская городская

0,04

2,26

-0,70

-0,73

-1,32

_ЩЕ

0,23

1.96

|___________________ И т. д. (всего 32 случая), все данные в г-баллах__________________

Факторные нагрузки можно представить как коэффициенты корреляции каждой переменной с каждым из выявленных факторов 1ак, корреляция между значениями первой факторной переменной и значениями переменной «Яблоко» составляет -0,93 Все факторные нагрузки приводятся в матрице факторного отображения - 1,2

Перед тем как приступить к содержательному анализу полученных результатов, осуществим еще одну операцию — вращение (го(аИоп). Важность этой операции продиктована тем, что существует не один, а множество вариантов матрицы факторных нагрузок, в равной степени объясняющих связи переменных (матрицу интеркорреляций). Необходимо выбрать такое решение, которое проще интерпретировать содержательно. Таковым считается матрица нагрузок, в которой значения каждой переменной по каждому фактору максимизированы или минимизированы (приближены к единице или к нулю).

В данном случае нагрузки на фактор 1 будут близки к нулю, а нагрузки на фактор 2 — к единице (принцип простой структуры). Соответственно, для содержательной интерпретации положения объектов мы будем привлекать только один фактор — фактор 2.

Существует довольно большое количество методов вращения факторов. Так, группа методов ортогонального вращения всегда сохраняет прямой угол между координатными осями. К таковым относятся уап-тах (минимизирует количество переменных с высокой факторной нагрузкой), аиагйтах (минимизирует количество факторов, необходимых для объяснения переменной), еаиатах (сочетание двух предыдущих методов). Методы косоугольного вращения не обязательно сохраняют прямой угол между осями (например, йггвс( оЪИтт). Метод рготах представляет собой сочетание ортогонального и косоугольного методов вращения. В большинстве случаев используется метод уап-тах, который дает хорошие результаты применительно и к большинству задач политических исследований. Кроме того, как и в процессе применения многих других методов, рекомендуется поэкспериментировать с различными техниками вращения.

Теперь можно приступить к содержательной интерпретации полученных результатов. Ключевую оппозицию — электоральный раскол — по первому фактору формируют КПРФ с одной стороны и «Яблоко» и СПС (в меньшей степени ОВР) — с другой. Содержательно — исходя из специфики идеологических установок названных субъектов избирательного процесса — мы можем интерпретировать данное размежевание как «лево-правый» раскол, являющийся «классическим» для политической науки.

Оппозицию по фактору 2 формируют ОВР и «Единство». К последнему примыкает «Блок Жириновского», но достоверно судить о его положении в факторном пространстве мы не можем в силу особенностей модели, которая плохо объясняет связи именно этой переменной. Чтобы объяснить такую конфигурацию, необходимо вспомнить политические реалии избирательной кампании 1999 г. Тогда борьба внутри политической элиты привела к формированию двух эшелонов «партии власти» — блоков «Единство» и «Отечество — вся Россия». Различие между ними не носило идеологического характера: фактически населению предложили выбирать не из двух идейных платформ, а из двух элитных групп, каждая из которых располагала существенными властными ресурсами и региональной поддержкой. Таким образом, этот раскол можно интерпретировать как «властно-элитный» (или, несколько упрощая, «власть — оппозиция»).

В целом мы получаем геометрическое представление некоего электорального пространства Рязанской области для данных выборов, если понимать электоральное пространство как пространство электорального выбора, структуру ключевых политических альтернатив («расколов»). Комбинация именно этих двух расколов была очень типична для парламентских выборов 1999 г.

Сопоставляя результаты факторного анализа для одного и того же региона на разных выборах, мы можем судить о наличии преемственности в конфигурации пространства электорального выбора территории. К примеру, факторный анализ федеральных парламентских выборов (1995, 1999 и 2003 гг.), проходивших в Татарстане, показал устойчивую конфигурацию электорального пространства. Для выборов 1999 г. в модели оставлен всего один фактор с объяснительной силой 83% вариации, что сделало невозможным построение двухмерной диаграммы. В соответствующем столбце приведены факторные нагрузки.

Если внимательно присмотреться к этим результатам, можно заметить, что в республике от выборов к выборам воспроизводится один и тот же основной раскол: «"партия власти" — все остальные». «Партией власти» в 1995 г. выступал блок «Наш дом — Россия» (НДР), в 1999 г. — ОВР, в 2003 г. — «Единая Россия». С течением времени меняются лишь «детали» — название «партии власти». Новый политический «лейбл» оченьлег-ко ложится в статичную матрицу одномерного политического выбора.

В заключение главы дадим один практический совет. Успешность освоения статистических методов по большому счету возможна только при интенсивной практической работе со специальными программами (уже неоднократно упомянутые 8Р88, 81а118иса или хотя бы М1сго8оГ1 Ехсе1). Не случайно изложение статистических техник ведется нами в режиме алгоритмов работы: это позволяет студенту самостоятельно пройти все стадии анализа, сидя за компьютером. Без попыток практического анализа реальных данных представление о возможностях статистических методов в политическом анализе неизбежно останется общим и абстрактным. А на сегодняшний день умение применять статистику для решения и теоретических, и прикладных задач — принципиально важная составляющая модели специалиста-политолога.