Кластер-анализ
К лас тер - анализ представляет собой группу алгоритмов многомерной классификации объектов, под которой понимается упорядочение в наглядные структуры или группы сходства/различия объектов, обладающих множеством характеристик. В качестве объектов могут выступать не только наблюдения (респонденты, политические партии и т. д.), но и переменные.
Например, в парламентских выборах 17 декабря 1995 г. приняли участие 43 избирательных объединения, выборы проводились во всех 89 регионах России. Наша задача — разбить субъекты Федерации на несколько групп по признаку близости политических предпочтений избирателей, выявленных в ходе голосования за избирательные объединения и блоки. Наши исходные данные в этом случае составят таблицу с 89 столбцами и 43 строками, всего 3287 (43 х 89) числовых данных. Даже если мы проведем предварительное «сжатие» данных с помощью группировки или типологизации, например объединим блоки в несколько идеологически близких групп, — все равно решить поставленную задачу будет крайне проблематично. Если, конечно, не применять кластер-анализ, который как раз и предназначен для решения подобного рода проблем.
Среди различных алгоритмов классификации, объединяемых кластер-анализом, наиболее распространены три — иерархический кластер-анализ ((гее с1и8(епп§), метод К-средних (К-шеапз) и двухходовое объединение ((дао-тоау.]о1шп§). Мы рассмотрим первые два алгоритма как более активно используемые в анализе политической информации.
Иерархический кластер-анализ
Иерархический кластер-анализ организует данные в наглядные «древовидные» структуры, или дендрограммы. Пример такой структуры приводится ниже; в качестве объектов выступают политические партии и блоки, упорядоченные с точки зрения близости в пространстве голосований в 16 районах Северо-Восточного АО г. Москвы на парламентских выборах 1999 г.
Это горизонтальная дендрограмма. На ней расстояния между объектами и группами объектов (кластерами) различаются по горизонтальной оси. Так, наименьшее расстояние зафиксировано между о0бъектами партий «Яблоко» и СПС — они соединены самой короткой ветвью. Вторые по близости — КПРФ и кластер «"Яблоко" — СПС».2 Третьи по близости объекты — «Единство» и «Блок Жиринов -
В древовидной классификации нет четкого правила определения, какие объекты входят в один кластер, а какие нет. Все зависит от исследовательского критерия уникальности объектов. Если критерий уникальности «слабый», т. е. вы хотите получить минимальное число кластеров, можно считать таковыми «"Яблоко" — СПС — КПРФ» (1) и «"Единство" — БЖ — ОВР» (2). Эти два кластера, между прочим, будут сильно различаться по плотности: расстояния в первом кластере значительно меньше, чем во втором.
При более «сильном» критерии уникальности можно рассматривать ОВР как изолированный объект, не входящий ни в один кластер. При максимально сильном критерии уникальности можно говорить о кластере «"Яблоко" — СПС» и четырех изолированных объектах.
Создание дендрограммы: вычислительный аспект
Для указанного примера мы имеем исходные данные в виде процентов голосов, набранных 6 ведущими партиями и избирательными объединениями в 16 районах Северо-Восточного АО г. Москвы на выборах депутатов Госдумы 1999 г. Они представлены в таблице.
Район | «Яблоко» | «Единство» | БЖ | ОВР | КПРФ | СПС |
Алексеевский | 10,72 | 5,91 | 1,94 | 39,83 | 12,68 | 14,91 |
Алтуфьевский | 8,13 | 7,39 | 3,73 | 43,57 | 10,42 | 9,70 10,75 |
Бабушкинский | 8,95 | 6,68 | 3,04 | 42,03 | 12,44 | |
Бибирево | 9,29 | 9,58 | 3,21 | 40,25 | 11,04 | 11,09 |
Бутырский | 10,04 | 6,84 | 2,82 | 40,51 | 12,18 | 12,13 |
Лианозово | 8,49 | 6,73 | 3,16 | 45,20 | 11,46 | 9,17 |
Лосиноостровский | 9,14 | 6,51 | 2,41 | 43,64 | 12,80 | 10,60 10,60 |
Марфино | 9,42 | 6,55 | 2,84 | 44,25 | 11,51 | |
Марьина Роща | 10,00 | 6,83 | 2,51 | 41,07 | 12,26 | 12,04 |
Останкинский | 10,61 | 5,78 | 1,92 | 39,97 | 12,31 | 14,64 |
Отрадное | 9,71 | 6,74 | 3,38 | 42,42 | 10,93 | 11,07 |
Ростокино | 8,98 | 6,97 | 2,23 | 41,66 | 11,88 | 12,49 |
Свиблово | 9,00 | 6,38 | 2,71 | 43,16 | 11,17 | 11,29 |
Северное Медведково | 8,83 | 6,67 | 3,21 | 45,27 | 10,70 | 9,95 |
Южное Медведково | 9,03 6,55 | 2,89 | 44,52 | 11,43 | 10,11 | |
Ярославский | 8,54 6,68 | 2,88 | 44,25 | 11,50 | 10,88 |
В кластер-анализе используется принцип геометрического представления, о котором уже говорилось ранее. Мы представляем объекты как точки в л-мерной системе координат. В нашем случае каждая партия будет иметь определенную позицию в 16-мерном (по числу районов) признаковом пространстве. Естественно, если число измерений превышает три, мы не можем получить визуальное геометрическое представление. Впрочем, это никоим образом не мешает нашему исследованию.
Создание дендрограммы происходит в два этапа:
1)построение матрицы расстояний (измерение расстояния между всеми парами имеющихся объектов);
2) построение дендрограммы на основе полученной матрицы расстояний.
Уже н а стадии построения матрицы расстояний возникает возможность выбирать из нескольких вариантов: что именно считать расстоянием, какую метрику использовать? В стандартных компьютерных программах кластер-анализа мы имеем семь-восемь различных мер близости (или мер расстояния — англ. сНзГапсе теазиге). Среди них: евклидово расстояние, взвешенное евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстояние, процент несогласия, коэффициент Пирсона. Более подробно остановимся на евклидовом расстоянии (еис1есНап сШГапсе) и расстоянии, основанном на коэффициенте корреляции Пирсона (1 — г).
Евклидово расстояние — это кратчайшее расстояние (сНзГ) между двумя точками х и у в л-мерном евклидовом пространстве. Оно вычисляется по простой формуле:
Так, если мы имеем х с координатами — и у (2; 0), то расстояние между ними составит:
Используя эту формулу, можно подсчитать все парные расстояния для наших исходных данных и получить матрицу расстояний:
«Яблоко» | «Единство» | БЖ | ОВР | КПРФ | СПС |
«Яблоко» | |||||
«Единство» | 11,17 | ||||
БЖ | 26,37 | 16,21 | |||
ОВР | 133,53 | 143,45 | 159,31 | ||
КПРФ | 9,8 | 20,14 | 35,74 | 124,05 | |
СПС | 9,08 | 19,8 | 35,03 | 125,71 | 5,28 |
Вариацией евклидова расстояния является взвешенное евклидово расстояние. Эта мера близости отличается тем, что отсутствует операция извлечения квадратного корня:
Таким образом, происходит «растягивание» дистанций: большие расстояния становятся многократно больше, незначительные же увеличиваются не столь существенно. Большим расстояниям придается больший вес, отсюда и название меры близости. Для наших данных матрица расстояний во взвешенной евклидовой метрике имела бы следующий вид:
«Яблоко» | «Единство» | БЖ | ОВР | КПРФ | СПС |
«Яблоко» | |||||
«Единство» | 1,31 | ||||
БЖ | 1,68 | 0,49 | |||
ОВР | 1,76 | 1,14 | 0,49 | ||
КПРФ | 0,42 | 1,43 | 1,79 | 1,48 | |
СПС | 0,14 | 1,33 | 1,82 | 1,82 | 0,41 |
Плотная положительная корреляция «СПС — "Яблоко"» (г= 0,86) стала наименьшим расстоянием — 0,14. Плотная отрицательная корреляция «БЖ — СПС» (г= -0,82) стала наибольшим расстоянием — 1,82. Следует оговориться, что мера расстояния 1 - г не используется;
«Яблоко» | «Единство» | БЖ | ОВР | КПРФ | СПС |
«Яблоко» | |||||
«Единство» | 124,81 | ||||
БЖ | 695,33 | 262,87 | |||
ОВР | 17830,31 | 20576,99 | 25378,81 | ||
КПРФ | 96,14 | 405,48 | 1277,05 | 15388,04 | |
СПС | 82,49 | 392,12 | 1227,05 | 15803,83 | 27,87 |
Так, расстояние «"Яблоко" — СПС» увеличилось с 9 до 82, тогда как расстояние «БЖ — ОВР» — со 159 до 25 378. Такой прием может понадобиться тогда, когда различия расстояний между объектами незначительны и структура объектов ненаглядна. В нашем же случае гораздо удобнее использовать обычное евклидово расстояние.
Принципиально иной метод вычисления матрицы расстояний основан на парном корреляционном анализе Пирсона, о котором подробно говорилось выше. Сначала вычисляется матрица парных корреляций, которая для наших данных будет иметь вид:
«Яблоко» | «Единство» | БЖ | ОВР | КПРФ | СПС |
«Яблоко» | |||||
«Единство» | -0,31 | ||||
БЖ | -0,68 | 0,51 | |||
ОВР | -0,76 | -0,14 | 0,51 | ||
КПРФ | 0,58 | -0,43 | -0,79 | -0,48 | |
СПС | 0,86 | -0,33 | -0,82 -0,82 | 0,59 |
После вычисления матрицы парных расстояний можно приступать к формированию дендрограммы. Однако и на этой стадии мы имеем достаточно широкий набор опций. Основной вопрос состоит в том, каким образом связывать вместе несколько объектов, как следует определить расстояния между кластерами, т. е. необходимо выбрать правило объединения (или правило связи). Как и в случае с мерой близости, в статистических программах имеется около семи вариантов выбора правила объединения. Основные из них: одиночная связь (метод ближайшего соседа), полная связь (метод дальних соседей), невзвешенное и взвешенное попарное среднее, невзве-шенный и взвешенный центроидный метод, метод Варда.
Например, в случае использования метода ближайшего соседа (пеаг-ез( пе1§ЬЬоиг, 8Ш§1е Ппкаде) расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами в различных кластерах. Построение дендрограммы начинается с нахождения наименьшего значения среди всех парных расстояний. В методе дальних соседей (сошр1е(е Ппкаде), напротив, расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах. Соответственно, формирование дендрограммы начинается с поиска самой удаленной пары объектов.
Как выбирать меры близости и правило объединения? В некоторых случаях существуют четкие критерии. Так, процент несогласия как мера расстояния «работает» только на категориальных данных. Однако чаще простых и ясных критериев не существует. Чтобы с ходу «попасть в яблочко», требуются серьезная статистическая подготовка и глубокое понимание специфики изучаемых объектов. Практические же советы таковы:
1.Следует, не ограничиваясь одной мерой близости и одним правилом объединения, пробовать различные комбинации (конечно, в разумных пределах). Особого внимания заслуживает общее в кластерной структуре объектов, обнаруживаемое в разных сочетаниях.
2. Необходимо проводить содержательную интерпретацию получаемых результатов, ни в коем случае не ограничиваясь «механическим перебором».
В продолжение рассмотрения нашего примера с электоральной статистикой построим четыре дендрограммы, используя комбинации мер расстояния (евклидово и 1 - г) и правил связи (полная и одиночная связь).
Сопоставляя полученные результаты, попробуем найти общие моменты и дать им содержательное объяснение.
Так, на трех дендрограммах четко видно изолированное положение блока «Отечество — вся Россия» (ОВР). Напомним, что кластер-анализ осуществлялся на данных избирательных комиссий районов Москвы, мэр которой Ю. М. Лужков являлся одним из лидеров блока. При этом парламентские выборы в декабре 1999 г. проходили одновременно с выборами столичного главы. Несомненно, все это способствовало более четкому позиционированию ОВР в глазах столичных избирателей.
На всех дендрограммах фиксируется близость «Яблока» и СПС, причем в двух случаях (3,4) это наименьшее расстояние между объектами. Здесь «московская специфика», скорее всего, ни при чем — близость электората СПС и «Яблока» в территориальном разрезе являлась на тот момент общероссийской тенденцией (мы уже рассматривали этот вопрос в параграфе, посвященном корреляционному анализу). Общероссийской закономерностью на парламентских выборах 1999 г. являлась также близость в территориальном разрезе электоратов «Единства» и «Блока Жириновского» (все дендрограммы).
Больше вопросов вызывает близость, с одной стороны, СПС и «Яблока», с другой — КПРФ. Казалось бы, эти партии в значительной мере полярны по своим идеологическим установкам. Ключ к ответу содержится, вероятно, в дендрограммах 3 и 4, демонстрирующих картину двух противостоящих кластеров: «"Единство" — БЖ — ОВР» и «СПС — "Яблоко" — КПРФ». Содержательное различие между двумя кластерами можно представить как признак отсутствия/наличия выраженной политической идеологии. «Правые» СПС и «Яблоко» и «левая» КПРФ были четко позиционированы в политико-идеологическом спектре, в отличие от «партий власти» ОВР и «Единства» (и в меньшей степени «Блока Жириновского»). Таким образом, можно предполагать наличие «раскола» (электорального размежевания) в Москве по линии «идейные» — «властные» партии.
К проблеме интерпретации структур электорального выбора мы вернемся, когда будем рассматривать факторный анализ.