Кластер-анализ

Похожие материалы

К лас тер - анализ представляет собой группу алгоритмов многомерной классификации объектов, под которой понимается упорядочение в наглядные структуры или группы сходства/различия объектов, обладающих множеством характеристик. В качестве объектов могут выступать не только наблюдения (респонденты, политические партии и т. д.), но и переменные.

Например, в парламентских выборах 17 декабря 1995 г. приняли участие 43 избирательных объединения, выборы проводились во всех 89 регионах России. Наша задача — разбить субъекты Федерации на несколько групп по признаку близости политических предпочтений избирателей, выявленных в ходе голосования за избирательные объединения и блоки. Наши исходные данные в этом случае составят таблицу с 89 столбцами и 43 строками, всего 3287 (43 х 89) числовых данных. Даже если мы проведем предварительное «сжатие» данных с помощью группировки или типологизации, например объединим блоки в несколько идеологически близких групп, — все равно решить поставленную задачу будет крайне проблематично. Если, конечно, не применять кластер-анализ, который как раз и предназначен для решения подобного рода проблем.

Среди различных алгоритмов классификации, объединяемых кластер-анализом, наиболее распространены три — иерархический кластер-анализ ((гее с1и8(епп§), метод К-средних (К-шеапз) и двухходовое объединение ((дао-тоау.]о1шп§). Мы рассмотрим первые два алгоритма как более активно используемые в анализе политической информации.

Иерархический кластер-анализ

Иерархический кластер-анализ организует данные в наглядные «древовидные» структуры, или дендрограммы. Пример такой структуры приводится ниже; в качестве объектов выступают политические партии и блоки, упорядоченные с точки зрения близости в пространстве голосований в 16 районах Северо-Восточного АО г. Москвы на парламентских выборах 1999 г.

Это горизонтальная дендрограмма. На ней расстояния между объектами и группами объектов (кластерами) различаются по горизонтальной оси. Так, наименьшее расстояние зафиксировано между о0бъектами партий «Яблоко» и СПС — они соединены самой короткой ветвью. Вторые по близости — КПРФ и кластер «"Яблоко" — СПС».2 Третьи по близости объекты — «Единство» и «Блок Жиринов -

В древовидной классификации нет четкого правила определения, какие объекты входят в один кластер, а какие нет. Все зависит от исследовательского критерия уникальности объектов. Если критерий уникальности «слабый», т. е. вы хотите получить минимальное число кластеров, можно считать таковыми «"Яблоко" — СПС — КПРФ» (1) и «"Единство" — БЖ — ОВР» (2). Эти два кластера, между прочим, будут сильно различаться по плотности: расстояния в первом кластере значительно меньше, чем во втором.

При более «сильном» критерии уникальности можно рассматривать ОВР как изолированный объект, не входящий ни в один кластер. При максимально сильном критерии уникальности можно говорить о кластере «"Яблоко" — СПС» и четырех изолированных объектах.

Создание дендрограммы: вычислительный аспект

Для указанного примера мы имеем исходные данные в виде процентов голосов, набранных 6 ведущими партиями и избирательными объединениями в 16 районах Северо-Восточного АО г. Москвы на выборах депутатов Госдумы 1999 г. Они представлены в таблице.

Район	«Яблоко»	«Единство»	БЖ	ОВР	КПРФ	СПС
Алексеевский	10,72	5,91	1,94	39,83	12,68	14,91
Алтуфьевский	8,13	7,39	3,73	43,57	10,42	9,70 10,75
Бабушкинский	8,95	6,68	3,04	42,03	12,44
Бибирево	9,29	9,58	3,21	40,25	11,04	11,09
Бутырский	10,04	6,84	2,82	40,51	12,18	12,13
Лианозово	8,49	6,73	3,16	45,20	11,46	9,17
Лосиноостровский	9,14	6,51	2,41	43,64	12,80	10,60 10,60
Марфино	9,42	6,55	2,84	44,25	11,51
Марьина Роща	10,00	6,83	2,51	41,07	12,26	12,04
Останкинский	10,61	5,78	1,92	39,97	12,31	14,64
Отрадное	9,71	6,74	3,38	42,42	10,93	11,07
Ростокино	8,98	6,97	2,23	41,66	11,88	12,49
Свиблово	9,00	6,38	2,71	43,16	11,17	11,29
Северное Медведково	8,83	6,67	3,21	45,27	10,70	9,95
Южное Медведково	9,03 6,55	2,89	44,52	11,43	10,11
Ярославский	8,54 6,68	2,88	44,25	11,50	10,88

В кластер-анализе используется принцип геометрического представления, о котором уже говорилось ранее. Мы представляем объекты как точки в л-мерной системе координат. В нашем случае каждая партия будет иметь определенную позицию в 16-мерном (по числу районов) признаковом пространстве. Естественно, если число измерений превышает три, мы не можем получить визуальное геометрическое представление. Впрочем, это никоим образом не мешает нашему исследованию.

Создание дендрограммы происходит в два этапа:

1)построение матрицы расстояний (измерение расстояния между всеми парами имеющихся объектов);

2) построение дендрограммы на основе полученной матрицы расстояний.

Уже н а стадии построения матрицы расстояний возникает возможность выбирать из нескольких вариантов: что именно считать расстоянием, какую метрику использовать? В стандартных компьютерных программах кластер-анализа мы имеем семь-восемь различных мер близости (или мер расстояния — англ. сНзГапсе теазиге). Среди них: евклидово расстояние, взвешенное евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстояние, процент несогласия, коэффициент Пирсона. Более подробно остановимся на евклидовом расстоянии (еис1есНап сШГапсе) и расстоянии, основанном на коэффициенте корреляции Пирсона (1 — г).

Евклидово расстояние — это кратчайшее расстояние (сНзГ) между двумя точками х и у в л-мерном евклидовом пространстве. Оно вычисляется по простой формуле:

Так, если мы имеем х с координатами — и у (2; 0), то расстояние между ними составит:

Используя эту формулу, можно подсчитать все парные расстояния для наших исходных данных и получить матрицу расстояний:

«Яблоко»	«Единство»	БЖ	ОВР	КПРФ	СПС
«Яблоко»
«Единство»	11,17
БЖ	26,37	16,21
ОВР	133,53	143,45	159,31
КПРФ	9,8	20,14	35,74	124,05
СПС	9,08	19,8	35,03	125,71	5,28

Вариацией евклидова расстояния является взвешенное евклидово расстояние. Эта мера близости отличается тем, что отсутствует операция извлечения квадратного корня:

Таким образом, происходит «растягивание» дистанций: большие расстояния становятся многократно больше, незначительные же увеличиваются не столь существенно. Большим расстояниям придается больший вес, отсюда и название меры близости. Для наших данных матрица расстояний во взвешенной евклидовой метрике имела бы следующий вид:

«Яблоко»	«Единство»	БЖ	ОВР	КПРФ	СПС
«Яблоко»
«Единство»	1,31
БЖ	1,68	0,49
ОВР	1,76	1,14	0,49
КПРФ	0,42	1,43	1,79	1,48
СПС	0,14	1,33	1,82	1,82	0,41

Плотная положительная корреляция «СПС — "Яблоко"» (г= 0,86) стала наименьшим расстоянием — 0,14. Плотная отрицательная корреляция «БЖ — СПС» (г= -0,82) стала наибольшим расстоянием — 1,82. Следует оговориться, что мера расстояния 1 - г не используется;

«Яблоко»	«Единство»	БЖ	ОВР	КПРФ	СПС
«Яблоко»
«Единство»	124,81
БЖ	695,33	262,87
ОВР	17830,31	20576,99	25378,81
КПРФ	96,14	405,48	1277,05	15388,04
СПС	82,49	392,12	1227,05	15803,83	27,87

Так, расстояние «"Яблоко" — СПС» увеличилось с 9 до 82, тогда как расстояние «БЖ — ОВР» — со 159 до 25 378. Такой прием может понадобиться тогда, когда различия расстояний между объектами незначительны и структура объектов ненаглядна. В нашем же случае гораздо удобнее использовать обычное евклидово расстояние.

Принципиально иной метод вычисления матрицы расстояний основан на парном корреляционном анализе Пирсона, о котором подробно говорилось выше. Сначала вычисляется матрица парных корреляций, которая для наших данных будет иметь вид:

«Яблоко»	«Единство»	БЖ	ОВР	КПРФ	СПС
«Яблоко»
«Единство»	-0,31
БЖ	-0,68	0,51
ОВР	-0,76	-0,14	0,51
КПРФ	0,58	-0,43	-0,79	-0,48
СПС	0,86	-0,33	-0,82 -0,82	0,59

После вычисления матрицы парных расстояний можно приступать к формированию дендрограммы. Однако и на этой стадии мы имеем достаточно широкий набор опций. Основной вопрос состоит в том, каким образом связывать вместе несколько объектов, как следует определить расстояния между кластерами, т. е. необходимо выбрать правило объединения (или правило связи). Как и в случае с мерой близости, в статистических программах имеется около семи вариантов выбора правила объединения. Основные из них: одиночная связь (метод ближайшего соседа), полная связь (метод дальних соседей), невзвешенное и взвешенное попарное среднее, невзве-шенный и взвешенный центроидный метод, метод Варда.

Например, в случае использования метода ближайшего соседа (пеаг-ез( пе1§ЬЬоиг, 8Ш§1е Ппкаде) расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами в различных кластерах. Построение дендрограммы начинается с нахождения наименьшего значения среди всех парных расстояний. В методе дальних соседей (сошр1е(е Ппкаде), напротив, расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах. Соответственно, формирование дендрограммы начинается с поиска самой удаленной пары объектов.

Как выбирать меры близости и правило объединения? В некоторых случаях существуют четкие критерии. Так, процент несогласия как мера расстояния «работает» только на категориальных данных. Однако чаще простых и ясных критериев не существует. Чтобы с ходу «попасть в яблочко», требуются серьезная статистическая подготовка и глубокое понимание специфики изучаемых объектов. Практические же советы таковы:

1.Следует, не ограничиваясь одной мерой близости и одним правилом объединения, пробовать различные комбинации (конечно, в разумных пределах). Особого внимания заслуживает общее в кластерной структуре объектов, обнаруживаемое в разных сочетаниях.

2. Необходимо проводить содержательную интерпретацию получаемых результатов, ни в коем случае не ограничиваясь «механическим перебором».

В продолжение рассмотрения нашего примера с электоральной статистикой построим четыре дендрограммы, используя комбинации мер расстояния (евклидово и 1 - г) и правил связи (полная и одиночная связь).

Сопоставляя полученные результаты, попробуем найти общие моменты и дать им содержательное объяснение.

Так, на трех дендрограммах четко видно изолированное положение блока «Отечество — вся Россия» (ОВР). Напомним, что кластер-анализ осуществлялся на данных избирательных комиссий районов Москвы, мэр которой Ю. М. Лужков являлся одним из лидеров блока. При этом парламентские выборы в декабре 1999 г. проходили одновременно с выборами столичного главы. Несомненно, все это способствовало более четкому позиционированию ОВР в глазах столичных избирателей.

На всех дендрограммах фиксируется близость «Яблока» и СПС, причем в двух случаях (3,4) это наименьшее расстояние между объектами. Здесь «московская специфика», скорее всего, ни при чем — близость электората СПС и «Яблока» в территориальном разрезе являлась на тот момент общероссийской тенденцией (мы уже рассматривали этот вопрос в параграфе, посвященном корреляционному анализу). Общероссийской закономерностью на парламентских выборах 1999 г. являлась также близость в территориальном разрезе электоратов «Единства» и «Блока Жириновского» (все дендрограммы).

Больше вопросов вызывает близость, с одной стороны, СПС и «Яблока», с другой — КПРФ. Казалось бы, эти партии в значительной мере полярны по своим идеологическим установкам. Ключ к ответу содержится, вероятно, в дендрограммах 3 и 4, демонстрирующих картину двух противостоящих кластеров: «"Единство" — БЖ — ОВР» и «СПС — "Яблоко" — КПРФ». Содержательное различие между двумя кластерами можно представить как признак отсутствия/наличия выраженной политической идеологии. «Правые» СПС и «Яблоко» и «левая» КПРФ были четко позиционированы в политико-идеологическом спектре, в отличие от «партий власти» ОВР и «Единства» (и в меньшей степени «Блока Жириновского»). Таким образом, можно предполагать наличие «раскола» (электорального размежевания) в Москве по линии «идейные» — «властные» партии.

К проблеме интерпретации структур электорального выбора мы вернемся, когда будем рассматривать факторный анализ.