Анализ связей между неметрическими переменными
Прежде всего необходимо напомнить, что неметрическими (категориальными) переменными называют переменные, измеряемые на номинальном уровне. Номинальные переменные — пол, принадлежность к той или иной политической партии, предпочтение определенного кандидата — соотносят изучаемые объекты с определенным набором непересекающихся классов (мужской/женский; член КПРФ / член ЛДПР / член «Единой России» и т. д.; поддерживает кандидата А / кандидата В/ кандидата р. К неметрическим относятся также порядковые переменные с небольшим числом категорий. Порядковые переменные ранжируют объекты по интенсивности определенного признака (например, интенсивность интереса к политике: низкая / средняя / высокая).
Анализ связей между переменными предполагает получение ответа на три основных вопроса:
• Существует ли связь между переменными?
• Какова интенсивность (плотность) связи между переменными, если она существует?
• Какова направленность (характер) этой связи?
Таблицы сопряженности
Наиболее простым и распространенным способом выявления связи между категориальными переменными является построение таблиц сопряженности, которые показывают, сколько случаев относится одновременно и к определенной категории переменной А, и к определенной категории переменной В.
Предположим, имеется две номинальные переменные: 1) пол респондента с категориями «мужской» и «женский»; 2) политические предпочтения респондента с категориями «поддержка кандидата в президенты А» и «поддержка кандидата в президенты В» («выбор кандидата»). Всего опрошено 54 респондента, мужчин и женщин среди них поровну (по 27). Кандидатур отдали предпочтение 24 респондента, кандидату В — 30. Возникает вопрос: существует ли связь между половой принадлежностью респондентов и их выбором между кандидатом А и кандидатом В? Чтобы ответить на него, построим матрицу сопряженности переменных «пол» и «выбор кандидата» (этот прием называется кросстабуляцией). В ней будет четыре категории частот:
1) мужчины, поддерживающие кандидата А;
2) мужчины, поддерживающие кандидата В;
3) женщины, поддерживающие кандидата А;
4) женщины, поддерживающие кандидата В.
Пол мужской | Пол женский | Всего | |
Кандидат А | 19 | 5 | 24 |
Кандидат В | 8 | 22 | 30 |
Всего | 27 | 27 | 54 |
Даже беглого взгляда на матрицу сопряженности достаточно, чтобы убедиться в наличии связи. Так, среди поддерживающих кандидата А явно доминируют мужчины (18 мужчин из 23 случаев), электорат же кандидата В представлен в основном женщинами (21 женщина из 29 случаев).
В рамках анализа таблиц сопряженности мы располагаем рядом способов сделать понимание связи более глубоким. Первый из них позволяет вычислить отношения между (1) реально наблюдаемыми частотами и (2) частотами, которые мы ожидали бы увидеть в том случае, если бы связи не существовало. При отсутствии связи между переменными «пол» и «выбор кандидата» логично ожидать равного выбора кандидата А и кандидата В для каждого пола.
Таблица ожидаемых частот для нашего примера выглядит следующим образом:
Пол мужской | Пол женский | Всего | |
Кандидат А | 12 | 12 | 24 |
Кандидат В | 15 | 15 | 30 |
Всего | 27 | 27 | 54 |
Как видим, среди поддерживающих кандидата А частота значений «мужской пол» выше ожидаемой, а частота значений «женский пол» — ниже. Для кандидата В ситуация обратная. Полезно вычислить точные отклонения между наблюдаемыми и ожидаемыми частотами, вычтя вторые из первых. Полученные разности будут называться остатками. Таблица остатков в нашем примере будет иметь вид:
Пол мужской | Пол женский | |
Кандидат А | 7 | -7 |
Кандидат В | -1 | 7 |
Еще один способ сделать наше понимание связи между переменными более глубоким — дополнить абсолютные частоты процентными отношениями:
Пол мужской | Пол женский | Всего | ||
Частота | 19 | 5 | 24 | |
Кандидат А | % от «кандидат» | 79,2% | 20,8% | 100% |
% от «пол» | 70,4% | 18,5% | 44,4% | |
% от «всего» | 35,2% | 9,3% | 44,4% | |
Частота | 8 | 22 | 30 | |
Кандидат В | % от «кандидат» | 26,7% | 73,3% | 100% |
% от «пол» | 29,6% | 81,5% | 55,6% | |
% от «всего» | 14,8% | 40,7% | 55,6% | |
Частота | 27 | 27 | 54 | |
Всего | % от «кандидат» | 50% | 50% | 100% |
% от «пол» | 100% | 100% | 100% | |
% от «всего» | 50% | 50% | 100% |
Из приведенной таблицы следует, в частности, что кандидата А поддерживают 19 из 27, или 70%, опрошенных мужчин. Этого же кандидата поддерживает 5 из 27, или 18%, опрошенных женщин. Доля мужчин в совокупном электорате кандидата А составляет 79%, доля женщин — 21%. Среди всех опрошенных доля мужчин, поддерживающих кандидата А, составляет 35%, женщин — 9%. Аналогичным образом оценивается и распределение мужской и женской поддержки для кандидата В.
Наиболее показательными с точки зрения оценки связи между переменными являются доли мужчин и женщин среди поддерживающих кандидата А и В соответственно (в таблице эти значения выделены жирным шрифтом).
Полученные результаты позволяют сделать вывод не только о наличии связи, но и о ее характере: мужчины склонны в большей степени, чем женщины, поддерживать кандидата А; женщины, напротив, в своем большинстве отдают предпочтение кандидату В.
Меры связи категориальных переменных
С помощью таблиц сопряженности мы получили наглядное представление о сочетаниях категорий переменных и сделали обоснованное предположение о наличии и характере связи между ними. Однако нельзя ли дополнительно получить некую единую числовую «меру уверенности» в том, что связь действительно существует и является значимой? Кроме того, нет ли возможности выявить числовую меру интенсивности (плотности) этой связи? Во многих случаях — особенно если требуется сопоставить связи между различными переменными — единый числовой коэффициент удобнее, нежели обширная статистика таблиц сопряженности.
Действительно, статистические инструменты позволяют получить ответы на оба вопроса. Существует несколько коэффициентов связи между категориальными переменными.
Идея, лежащая в основе вычисления коэффициента хи-квадрат (х ), уже была нами затронута при рассмотрении матриц сопряженности. Хи-квадрат оценивает значимость различий между ожидаемыми и наблюдаемыми частотами. Если наблюдаемые значения совпадают с ожидаемыми, переменные считаются взаимно независимыми. Оценивая степень взаимной независимости переменных, хи-квадрат косвенно устанавливает их зависимость.
Статистическая значимость результата (/"-уровень) представляет собой меру уверенности в том, что результат не является случайным, т. е. результат репрезентативен для более широкой выборки. Три основных значения р-уровня, используемых в статистике, — 0,05, 0,01 и 0,001. Если выявленная статистическая связь надежна на уровне 0,05 (5%), имеется не более чем 5%-ная вероятность того, что найденная связь носит случайный характер и не проявится в генеральной совокупности. На /7-уровне 0,01 вероятность случайности результата снижается до 1 % и т. д.
|
Интерпретация коэффициента хи-квадрат производится на различных /ьуровнях с учетом степени свободы. Имеется специальная таблица распределения у}, фрагмент которой приводится ниже.
0,05 | 0,01 | 0,001 | |
1 | 3,841 | 6,635 | 10,827 |
2 | 5,991 | 9,210 | 13,815 |
3 | 7,815 | 11,345 | 16,266 |
4 | 9,488 | 13,277 | 18,467 |
5 | 11,070 | 15,086 | 20,515 |
Напомним, что для случая с переменными «пол» и «выбор кандидата» нами был получен коэффициент 14,7. Степень свободы составляет 1. Чтобы быть статистически значимым на определенном /ьуровне, хи-квадрат должен превышать значение, указанное в таблице для данного />-уровня при соответствующей степени свободы. В нашем примере полученный результат значим и на уровне 0,05 (14,7>3,841), и на уровне 0,01 (14,7>6,635), и на уровне 0,001 (14,7>10,827). Таким образом, мы можем быть уверены относительно статистической надежности полученного результата. Существует не более одного шанса из тысячи, что связь между полом респондентов и поддержкой одного из кандидатов явится особенностью исключительно одной изученной выборки и не будет фиксироваться вне ее.
Однако мы еще не получили прямого ответа на вопрос о степени интенсивности связи между переменными. Это можно сделать, рассчитав несколько специальных коэффициентов плотности связи между категориальными переменными, наиболее простым из которых является коэффициент ассоциации.
Коэффициент ассоциации в нашем случае равен 0,79. Для большинства статистических коэффициентов, отражающих плотность связи, близость к единице (иногда к ±1) отражает высокую степень связи переменных, близость к 0 — слабую связь или ее отсутствие. Для коэффициента ассоциации статистически показательным является значение, превышающее 0,5.
Чтобы лучше понять логику этих вычислений, рассмотрим расчет коэффициента ассоциации для ожидаемых значений, при которых связь отсутствует. Вернемся к таблице сопряженности, где указаны ожидаемые значения сопряженности переменных «пол» и «выбор кандидата»:
Пол мужской | Пол женский | |
Какдидат А | 12 | ____ — 12 |
Кандидат В | 15 — | 15 |
Несложные вычисления покажут, что отношение разности произведений диагональных ячеек и их суммы составит 0/360 = 0.
Существенное ограничение использования коэффициента ассоциации состоит в том, что обе изучаемые переменные должны быть номинальными и дихотомическими (альтернативными), т. е. измеряться всего двумя взаимоисключающими категориями, охватывающими все пространство универсума. Типичной номинальной дихотомической переменной является «пол»: две категории «мужской» и «женский» охватывают все возможные состояния признака.
Несколько иной подход к расчету связи неметрических переменных используется при вычислении коэффициента лямбда.
Прежде всего посмотрим на изучаемые переменные «пол» и «выбор кандидата» через призму отношений влияния. Зависимой переменной будет «выбор кандидата», независимой — «пол респондента». Лямбда позволит понять, насколько хорошо мы способны предсказать значения зависимой переменной, используя значения независимой. Для этого сначала следует рассмотреть наши шансы предсказать значение зависимой переменной без обращения к независимой.
В нашем примере кандидата А поддерживают 24 человека, или 44,4% всех респондентов, без различения пола. Кандидата В поддерживают 30 человек, или 55,6% респондентов. Если нам придется угадывать выбор кандидата в каждом отдельном случае, логично называть более часто встречающееся значение, т. е. «кандидат В». В результате мы окажемся правы в 55,6% случаях и не правы в 44,4%.
Следующий вопрос состоит в том, сможем ли мы повысить вероятность правильного определения выбора респондентов, если будем учитывать их половую принадлежность. Обратимся еще раз к таблице сопряженности, которую построили ранее:
Пол мужской | Пол женский | Всего | |
Кандидат А | 19 | 5 | 24 |
Кандидат В | 8 | 22 | 30 |
Всего | 27 | 27 | 54 |
Для респондентов-мужчин логично сделать предположение о поддержке кандидата А: в этом случае мы угадаем верное значение 19 раз и не угадаем 8 раз. Относительно женщин будет уместна гипотеза о выборе кандидата В — она подтвердится в 22 случаях и не подтвердится в 5 случаях. В общей сложности мы будем правы 41 раз (41 = 19 + 22; 75,9% от всех случаев) и не правы 13 раз (13 = 8 + 5; 24,1% от всех случаев).
Теперь сопоставим точность наших прогнозов без учета независимой переменной и с учетом таковой:
Верно | Ошибка | |
Без учета пола | 30 (55,6%) | 24 (44,4%) |
С учетом пола | 41 (75,9%) | 13(24,1%) |
Невооруженным глазом видно, что наши предсказания во втором случае стали существенно точнее: доля ошибки снизилась с 44,4% до 24,1%. Собственно говоря, коэффициент лямбда как раз и дает нам точную меру сокращения ошибок (улучшения качества прогноза) при использовании независимой переменной.
Для вычисления меры связи категориальных переменных используются также коэффициент контингенции, коэффициенты взаимной сопряженности Пирсона и Чупрова. Способы их расчета можно найти в большинстве учебников по статистике.
Для переменных, измеренных на порядковом уровне, можно использовать как охарактеризованные выше техники (таблицы сопряженности, хи-квадрат, лямбду), так и совершенно иные. Напомним, что значения переменных порядкового уровня выстраивают объекты в соответствии со степенью выраженности признака (больше — меньше), и это дает новые возможности для оценки связи.
Основными мерами связи неметрических порядковых переменных являются гамма (у), Л Сомера и Тау-б (Ть Кендалла). Вычисление каждого из этих критериев основано на одном общем принципе: подсчете количества «инверсий», или «нарушений порядка». Так, отношение инверсии возникает в том случае, когда переменные ранжируются в противоположном порядке: возрастанию значений одной переменной соответствует уменьшение значений другой. Напротив, соответствием считается однонаправленная вариация переменных: увеличение значений одной переменной сопровождается увеличением значений другой.