Цели кластерного анализа

Выбор необходимых средств для обработки и анализа политологических данных задается концептуальной моде­лью, лежащей в основе исследования.

Применительно к конкретному исследовательскому проекту выбираются те статистические процедуры, которые наиболее подходят для решения поставленных задачи при­менительно к изучаемым видам политических отношений.

В учебной литературе распространено мнение, что кла­стерный анализ является описательной процедурой, которая не позволяет сделать никаких статистических выводов, но дает возможность провести «разведку» структуры данных. В таком контексте синонимами термина кластерный анализ считаются «таксономия» или «автоматическая классифика­ция объектов». Проще говоря, речь идет о выявлении груп­пировок (кластеров) в разнородных массивах данных, полу­ченных с помощью самых различных методов. Не будет преувеличением сказать, что эта задача является одной из основных для исследования политических процессов, в то время как статистические выводы играют здесь подчинен­ную роль.

В программе STATISTIC А кластерный анализ отнесен к разделу многомерных исследовательских методов. Эти ме­тоды были разработаны специально для распознания образ­цов или группировок (patterns) в многомерных наборах дан­ных (факторный анализ, анализ дискриминантной функции, многомерное шкалирование и др.).

Понятие кластерного анализа охватывает ряд алгорит­мов классификационной интерпретации данных, полученных в результате массовых опросов (например, опросов избира­телей в определенном округе). Главная цель, которую пре­следует аналитик в данном случае, состоит в том, как орга­низовать «горы данных» в научно значимые структуры или «классификации». Одномерные распределения данных, т. е. частотные распределения ответов на вопросы анкеты или ин­тервью, которые наиболее часто применяются с целью ин­терпретации результатов, для достижения этой цели не пред­назначены.

Например, политологу, изучающему социальную на­пряженность в избирательном округе, необходимо проанали­зировать совокупность из N объектов экономической и поли­тической ситуации, относящихся к его проблеме, каждый из которых оценивался респондентами в трехмерной системе координат - положительно, нейтрально или отрицательно. Респонденты, как это обычно бывает в социологических ис­следованиях, представляют выборку из генеральной сово­купности индивидов, обладающих соответствующими при­знаками. Для этой генеральной совокупности могут быть по­лучены интервальные оценки на некотором допустимом уровне статистической значимости. В результате каждый из N объектов будет представлен в избранной системе координат областью рассеяния оценок, классификация которых возможна с помощью техники кластерного анализа.

Наличие или отсутствие кластеров с определенным уровнем тесноты связи между признаками внутри и между кластерными группировками характеризует латентное состояние коллективного сознания, по которому можно судить о реальном уровне политической напряженности.

Благодаря классификации возникает возможность на­учного объяснения политической действительности. Кла­стерный анализ предоставляет технические средства для осу­ществления такой возможности. В этом контексте полезно уточнить некоторые основные понятия статистической тех­ники, а также сопоставить кластерный анализ с альтернатив­ными статистическими процедурами.

Прежде всего это относится к понятию «переменной», под которым следует иметь в виду те аспекты социальной ситуации, которые мы хотим фиксировать, измерять, контро­лировать или изменять в процессе научного исследования. Они могут различаться между собой в самых разных отно­шениях, но прежде всего по той роли, которая придается им в конкретном исследовательском процессе, а также по тем типам измерений, которые будут к ним применяться. Напри­мер, установки респондентов относительно причин и уровня социальной напряженности могут рассматриваться в кон­кретном социологическом исследовании в качестве «переменных».

Роль «переменных» различается в зависимости от того, имеем ли мы дело с корреляционными или эксперименталь­ными эмпирическими исследованиями. В первом случае ис­следователь не пытается влиять на переменные, но только измеряет их с помощью определенной статистической тех­ники и намеревается установить меру связи между перемен­ными (или их группировками). Например, сравнивается са­мооценка респондентами уровня их материального положе­ния и их отношение к тем или иным аспектам политической ситуации. В экспериментальном исследовании, напротив, исследователь изменяет значения переменных и затем изме­ряет последствия таких манипуляций на другие переменные. Эмпирические политические исследования по своему типу относятся к корреляционным, что имеет свои последствия —

данные таких исследований могут быть только «интерпрети­рованы», причем в терминах причинности той политической теории, которой придерживается исследователь.

Интерпретация корреляционных связей между пере­менными в кластерном анализе не играет решающей роли, поскольку его главной целью является установление латент­ных группировок «переменных». Тем не менее необходимо учитывать базовые положения относительно возможностей такой интерпретации.

Во-первых, коэффициенты корреляции не предназначе­ны для установления причинной связи между соотнесенными переменными и политическими установками. Там, где суще­ствует причинная связь, можно обнаружить и корреляцию, но не наоборот, поскольку соотнесенные переменные дейст­вуют внутри сложных систем причинно-следственных отно­шений. Установление корреляций для обнаружения и описа­ния причинного комплекса изучаемого вида политического поведения имеет смысл только в рамках относительно согла­сованной и предварительно изложенной познавательной схемы.

Во-вторых, необходимо учитывать, что коэффициенты корреляций могут существенно изменять свое значение с включением или устранением из анализа других переменных величин, а в статистике отсутствует возможность причинно - следственной интерпретации подобных изменений. Эта ин­терпретация может быть выражена только в терминах опре­деленной теоретической концепции. Гарантом адекватности аналитической обработки установленных коэффициентов корреляции является полнота сформулированной концепции, т. е. включение в ее схему относительно полного набора со­ответствующих признаков в качестве «переменных».

Если политолог с помощью опросов намерен исследо­вать такие феномены социально-политической жизни, как этноцентризм, авторитарность, легитимность, уровень соци­альной напряженности и т. п., он должен будет сконструиро­вать ряд вопросов к респонденту таким образом, чтобы вари­анты ответов могли быть интерпретированы как относитель­но полный набор «переменных» для характеристики этих феноменов. Техника кластерного анализа предоставляет ему инструменты для статистической обработки совокупности подобных переменных.

Различение между «независимыми» и «зависимыми» переменными имеет смысл только для экспериментальных исследований, где под первыми понимаются те переменные, значения которых исследователь может изменять в ходе экс­перимента, а относительно вторых ведется регистрация по­следствий искусственных изменений.

В соответствии с избранной шкалой измерения все пе­ременные могут быть классифицированы как 1) номиналь­ные, 2) ранговые (порядковые) и 3) интервальные.

Первые квантифицируются лишь на уровне принад­лежности респондентов к той или иной категории выборки, но не могут быть ранжированы или включены в какой-либо порядок статистических связей в соответствии с интенсивно­стью признака. Это такие переменные, как пол, раса, цвет, гражданство и т. д.

Вторые дают возможность ранжировать их в опреде­ленном порядке, но не могут быть квантифицированы в со­ответствии с интенсивностью признака. Все оценочные суж­дения респондентов в терминах «лучше - хуже», «больше - меньше» и т. п. относятся к ранговым переменным.

Третьи не только могут быть ранжированы, но и кван­тифицированы по интенсивности показателей (например, температура в жилищах респондентов, уровень доходов на одного члена семьи и т. п.).

Самая распространенная ошибка исследователей со­стоит в путанице между этими видами переменных, вызван­ной попытками статистической обработки и интерпретации ранговых переменных таким образом, как будто они имеют дело с интервальными. Если политолог в своем отчете огра­ничивается комментариями по поводу одномерных распре­делений тех или иных признаков, эта ошибка «остается за кадром», но она приобретает существенное значение, как только он попытается интерпретировать корреляционные связи между признаками или их группами.

В обобщенном виде подразумеваемая цель любого на­учного исследования, в том числе и политологического, со­стоит в определении двух базовых свойств отношений между переменными, известных как сила связи и надежность. В конкретном проекте социологу каждый раз необходимо вы­бирать между различными статистическими техниками, наи­более подходящими для решения этой задачи применительно к изучаемым видам социальных отношений. Особенности кластерного анализа могут быть поняты в сравнении с таки­ми альтернативными процедурами, как 1) факторный анализ,

2) многомерное шкалирование и 3) дискриминантная функ­ция.

Факторный анализ предполагает, что данные подлежат измерению по интервальной шкале и отвечают признакам так называемого нормального распределения. Факторный анализ использует корреляции между «переменными» в оп­ределенной системе «случаев» с целью установить отноше­ния между ними, лежащими в основе всей системы. Для не­которых видов кластерного анализа, напротив, может быть неважным, по какой именно шкале и как вычислялись «рас­стояния» между переменными, так как кластерный анализ нацелен на установление таксономии (классификации) объ­ектов.

Техника многомерного шкалирования имеет много об­щего с факторным анализом в отношении интерпретации ре­зультатов вычислений. Эта техника предназначена для выде­ления из всей системы объектов некоторой группы перемен­ных, характеризующихся наиболее сильными корреляцион­ными связями.

Техника дискриминантной функции предполагает, что исследователю заранее известно, к каким группам (класте­рам) принадлежат те или иные «случаи» (прямо противопо­ложное условие имеет место для кластерного анализа). С по­мощью этой техники определяют, какая именно «перемен­ная» наилучшим образом демонстрирует различия между ис­следуемыми группами.

В контексте данных политических опросов техника кластерного анализа позволяет обнаружить латентные груп­пировки «переменных», которые по своему содержанию яв­ляются отражением состояний коллективного сознания раз­личных социальных и профессиональных категорий населе­ния. Наличие (или отсутствие) относительно устойчивых кластерных группировок свидетельствует о формировании определенных политических установок, которые, в свою оче­редь, могут быть соотнесены с другими признаками иссле­дуемых категорий населения.

Кластерный анализ, по крайней мере так, как он пред­ставлен в современном программном обеспечении компью­терной статистической обработки данных (в пакетах SPSS, Statistica, Clustan), включает два основных вида. Кратко го­воря, первый вид, получивший название метода «соеди­няющего кластирования» (Joining clustering), который также можно назвать методом группировки переменных, отвечает на вопрос о том, как группируются оценочные суждения респондентов. Второй вид - метод «кластирования к-средних» (К-means clustering), который также можно назвать ме­тодом группировки значений, отвечает на вопрос, какие группировки образуют сами респонденты и как они соотно­сятся между собой.

Алгоритм «соединяющего кластирования» заключается в последовательном соединении или агрегировании объек­тов (в случае социологических опросов это будут оценочные суждения респондентов) во все более крупные кластеры вплоть до образования так называемого иерархического де­рева кластеров. В результате исследователь получает воз­можность анализировать как всю структуру «дерева» в це­лом, так и ее отдельные «ветви», используя определенный статистический критерий (меру) расстояния между сформи­ровавшимися кластерами. Компьютерное вычисление таких расстояний основывается на различных видах измерений и их правилах, которые аналитик избирает в соответствии со своей исследовательской стратегией (пакеты SPSS, Statistica, Clustan содержат их подробное описание).

Приведем пример данного вида кластерного анализа на материалах мониторинга «Народ и власть», осуществленного при участии автора в Социологическом центре Российской академии государственной службы при Президенте РФ. На вертикальной оси диаграммы «Структура политических оце­нок» наложены виды оценочных суждений респон­дентов в той последовательности, в которой они были кластированы друг с другом, на горизонтальной оси - показате­ли статистической меры связи между кластерами. Замкнутые линии образуют иерархическое дерево кластеров.

На данной диаграмме отчетливо выражена кластериза­ция оценок состояния политического руководства страной и материального статуса, а также ведущий характер связи это­го кластера с другими группировками оценок.

Оценка респондентами характера политического руко­водства страной и самооценка ими своего материального по­ложения оказываются наиболее взаимосвязанными и обра­зуют отдельный «кластер», определенным образом связан­ный с другими оценками политической и экономической си­туации. Алгоритм «кластирования k-средних» (K-means clustering) отличается от алгоритма «соединяющего класти­рования» (Joining clustering) прежде всего тем, что исследо­ватель имеет некоторые предварительные гипотезы о коли­честве кластеров, которое устанавливается им для вычисле­ний. Основная цель анализа состоит в том, чтобы определить, насколько установленные кластеры отличаются друг от друга.