Цели кластерного анализа
Выбор необходимых средств для обработки и анализа политологических данных задается концептуальной моделью, лежащей в основе исследования.
Применительно к конкретному исследовательскому проекту выбираются те статистические процедуры, которые наиболее подходят для решения поставленных задачи применительно к изучаемым видам политических отношений.
В учебной литературе распространено мнение, что кластерный анализ является описательной процедурой, которая не позволяет сделать никаких статистических выводов, но дает возможность провести «разведку» структуры данных. В таком контексте синонимами термина кластерный анализ считаются «таксономия» или «автоматическая классификация объектов». Проще говоря, речь идет о выявлении группировок (кластеров) в разнородных массивах данных, полученных с помощью самых различных методов. Не будет преувеличением сказать, что эта задача является одной из основных для исследования политических процессов, в то время как статистические выводы играют здесь подчиненную роль.
В программе STATISTIC А кластерный анализ отнесен к разделу многомерных исследовательских методов. Эти методы были разработаны специально для распознания образцов или группировок (patterns) в многомерных наборах данных (факторный анализ, анализ дискриминантной функции, многомерное шкалирование и др.).
Понятие кластерного анализа охватывает ряд алгоритмов классификационной интерпретации данных, полученных в результате массовых опросов (например, опросов избирателей в определенном округе). Главная цель, которую преследует аналитик в данном случае, состоит в том, как организовать «горы данных» в научно значимые структуры или «классификации». Одномерные распределения данных, т. е. частотные распределения ответов на вопросы анкеты или интервью, которые наиболее часто применяются с целью интерпретации результатов, для достижения этой цели не предназначены.
Например, политологу, изучающему социальную напряженность в избирательном округе, необходимо проанализировать совокупность из N объектов экономической и политической ситуации, относящихся к его проблеме, каждый из которых оценивался респондентами в трехмерной системе координат - положительно, нейтрально или отрицательно. Респонденты, как это обычно бывает в социологических исследованиях, представляют выборку из генеральной совокупности индивидов, обладающих соответствующими признаками. Для этой генеральной совокупности могут быть получены интервальные оценки на некотором допустимом уровне статистической значимости. В результате каждый из N объектов будет представлен в избранной системе координат областью рассеяния оценок, классификация которых возможна с помощью техники кластерного анализа.
Наличие или отсутствие кластеров с определенным уровнем тесноты связи между признаками внутри и между кластерными группировками характеризует латентное состояние коллективного сознания, по которому можно судить о реальном уровне политической напряженности.
Благодаря классификации возникает возможность научного объяснения политической действительности. Кластерный анализ предоставляет технические средства для осуществления такой возможности. В этом контексте полезно уточнить некоторые основные понятия статистической техники, а также сопоставить кластерный анализ с альтернативными статистическими процедурами.
Прежде всего это относится к понятию «переменной», под которым следует иметь в виду те аспекты социальной ситуации, которые мы хотим фиксировать, измерять, контролировать или изменять в процессе научного исследования. Они могут различаться между собой в самых разных отношениях, но прежде всего по той роли, которая придается им в конкретном исследовательском процессе, а также по тем типам измерений, которые будут к ним применяться. Например, установки респондентов относительно причин и уровня социальной напряженности могут рассматриваться в конкретном социологическом исследовании в качестве «переменных».
Роль «переменных» различается в зависимости от того, имеем ли мы дело с корреляционными или экспериментальными эмпирическими исследованиями. В первом случае исследователь не пытается влиять на переменные, но только измеряет их с помощью определенной статистической техники и намеревается установить меру связи между переменными (или их группировками). Например, сравнивается самооценка респондентами уровня их материального положения и их отношение к тем или иным аспектам политической ситуации. В экспериментальном исследовании, напротив, исследователь изменяет значения переменных и затем измеряет последствия таких манипуляций на другие переменные. Эмпирические политические исследования по своему типу относятся к корреляционным, что имеет свои последствия —
данные таких исследований могут быть только «интерпретированы», причем в терминах причинности той политической теории, которой придерживается исследователь.
Интерпретация корреляционных связей между переменными в кластерном анализе не играет решающей роли, поскольку его главной целью является установление латентных группировок «переменных». Тем не менее необходимо учитывать базовые положения относительно возможностей такой интерпретации.
Во-первых, коэффициенты корреляции не предназначены для установления причинной связи между соотнесенными переменными и политическими установками. Там, где существует причинная связь, можно обнаружить и корреляцию, но не наоборот, поскольку соотнесенные переменные действуют внутри сложных систем причинно-следственных отношений. Установление корреляций для обнаружения и описания причинного комплекса изучаемого вида политического поведения имеет смысл только в рамках относительно согласованной и предварительно изложенной познавательной схемы.
Во-вторых, необходимо учитывать, что коэффициенты корреляций могут существенно изменять свое значение с включением или устранением из анализа других переменных величин, а в статистике отсутствует возможность причинно - следственной интерпретации подобных изменений. Эта интерпретация может быть выражена только в терминах определенной теоретической концепции. Гарантом адекватности аналитической обработки установленных коэффициентов корреляции является полнота сформулированной концепции, т. е. включение в ее схему относительно полного набора соответствующих признаков в качестве «переменных».
Если политолог с помощью опросов намерен исследовать такие феномены социально-политической жизни, как этноцентризм, авторитарность, легитимность, уровень социальной напряженности и т. п., он должен будет сконструировать ряд вопросов к респонденту таким образом, чтобы варианты ответов могли быть интерпретированы как относительно полный набор «переменных» для характеристики этих феноменов. Техника кластерного анализа предоставляет ему инструменты для статистической обработки совокупности подобных переменных.
Различение между «независимыми» и «зависимыми» переменными имеет смысл только для экспериментальных исследований, где под первыми понимаются те переменные, значения которых исследователь может изменять в ходе эксперимента, а относительно вторых ведется регистрация последствий искусственных изменений.
В соответствии с избранной шкалой измерения все переменные могут быть классифицированы как 1) номинальные, 2) ранговые (порядковые) и 3) интервальные.
Первые квантифицируются лишь на уровне принадлежности респондентов к той или иной категории выборки, но не могут быть ранжированы или включены в какой-либо порядок статистических связей в соответствии с интенсивностью признака. Это такие переменные, как пол, раса, цвет, гражданство и т. д.
Вторые дают возможность ранжировать их в определенном порядке, но не могут быть квантифицированы в соответствии с интенсивностью признака. Все оценочные суждения респондентов в терминах «лучше - хуже», «больше - меньше» и т. п. относятся к ранговым переменным.
Третьи не только могут быть ранжированы, но и квантифицированы по интенсивности показателей (например, температура в жилищах респондентов, уровень доходов на одного члена семьи и т. п.).
Самая распространенная ошибка исследователей состоит в путанице между этими видами переменных, вызванной попытками статистической обработки и интерпретации ранговых переменных таким образом, как будто они имеют дело с интервальными. Если политолог в своем отчете ограничивается комментариями по поводу одномерных распределений тех или иных признаков, эта ошибка «остается за кадром», но она приобретает существенное значение, как только он попытается интерпретировать корреляционные связи между признаками или их группами.
В обобщенном виде подразумеваемая цель любого научного исследования, в том числе и политологического, состоит в определении двух базовых свойств отношений между переменными, известных как сила связи и надежность. В конкретном проекте социологу каждый раз необходимо выбирать между различными статистическими техниками, наиболее подходящими для решения этой задачи применительно к изучаемым видам социальных отношений. Особенности кластерного анализа могут быть поняты в сравнении с такими альтернативными процедурами, как 1) факторный анализ,
2) многомерное шкалирование и 3) дискриминантная функция.
Факторный анализ предполагает, что данные подлежат измерению по интервальной шкале и отвечают признакам так называемого нормального распределения. Факторный анализ использует корреляции между «переменными» в определенной системе «случаев» с целью установить отношения между ними, лежащими в основе всей системы. Для некоторых видов кластерного анализа, напротив, может быть неважным, по какой именно шкале и как вычислялись «расстояния» между переменными, так как кластерный анализ нацелен на установление таксономии (классификации) объектов.
Техника многомерного шкалирования имеет много общего с факторным анализом в отношении интерпретации результатов вычислений. Эта техника предназначена для выделения из всей системы объектов некоторой группы переменных, характеризующихся наиболее сильными корреляционными связями.
Техника дискриминантной функции предполагает, что исследователю заранее известно, к каким группам (кластерам) принадлежат те или иные «случаи» (прямо противоположное условие имеет место для кластерного анализа). С помощью этой техники определяют, какая именно «переменная» наилучшим образом демонстрирует различия между исследуемыми группами.
В контексте данных политических опросов техника кластерного анализа позволяет обнаружить латентные группировки «переменных», которые по своему содержанию являются отражением состояний коллективного сознания различных социальных и профессиональных категорий населения. Наличие (или отсутствие) относительно устойчивых кластерных группировок свидетельствует о формировании определенных политических установок, которые, в свою очередь, могут быть соотнесены с другими признаками исследуемых категорий населения.
Кластерный анализ, по крайней мере так, как он представлен в современном программном обеспечении компьютерной статистической обработки данных (в пакетах SPSS, Statistica, Clustan), включает два основных вида. Кратко говоря, первый вид, получивший название метода «соединяющего кластирования» (Joining clustering), который также можно назвать методом группировки переменных, отвечает на вопрос о том, как группируются оценочные суждения респондентов. Второй вид - метод «кластирования к-средних» (К-means clustering), который также можно назвать методом группировки значений, отвечает на вопрос, какие группировки образуют сами респонденты и как они соотносятся между собой.
Алгоритм «соединяющего кластирования» заключается в последовательном соединении или агрегировании объектов (в случае социологических опросов это будут оценочные суждения респондентов) во все более крупные кластеры вплоть до образования так называемого иерархического дерева кластеров. В результате исследователь получает возможность анализировать как всю структуру «дерева» в целом, так и ее отдельные «ветви», используя определенный статистический критерий (меру) расстояния между сформировавшимися кластерами. Компьютерное вычисление таких расстояний основывается на различных видах измерений и их правилах, которые аналитик избирает в соответствии со своей исследовательской стратегией (пакеты SPSS, Statistica, Clustan содержат их подробное описание).
Приведем пример данного вида кластерного анализа на материалах мониторинга «Народ и власть», осуществленного при участии автора в Социологическом центре Российской академии государственной службы при Президенте РФ. На вертикальной оси диаграммы «Структура политических оценок» наложены виды оценочных суждений респондентов в той последовательности, в которой они были кластированы друг с другом, на горизонтальной оси - показатели статистической меры связи между кластерами. Замкнутые линии образуют иерархическое дерево кластеров.
На данной диаграмме отчетливо выражена кластеризация оценок состояния политического руководства страной и материального статуса, а также ведущий характер связи этого кластера с другими группировками оценок.
Оценка респондентами характера политического руководства страной и самооценка ими своего материального положения оказываются наиболее взаимосвязанными и образуют отдельный «кластер», определенным образом связанный с другими оценками политической и экономической ситуации. Алгоритм «кластирования k-средних» (K-means clustering) отличается от алгоритма «соединяющего кластирования» (Joining clustering) прежде всего тем, что исследователь имеет некоторые предварительные гипотезы о количестве кластеров, которое устанавливается им для вычислений. Основная цель анализа состоит в том, чтобы определить, насколько установленные кластеры отличаются друг от друга.