Форма распределения значений переменной
Оценка формы распределения переменной важна с двух точек зрения. Во-первых, многие статистические методы предъявляют особые требования к форме распределения; если реальное распределение значений переменной не отвечает данным требованиям, результаты анализа могут быть поставлены под сомнение. Во-вторых, форма распределения переменной для политического аналитика может представлять интерес сама по себе, независимо от использования того или иного статистического инструментария. Форма распределения значений переменной может отражать содержательные характеристики изучаемого явления.
Большинство статистических методов, работающих с интервальными данными (а это основная часть вообще всех статистических методов), исходит из предположения о нормальном распределении значений переменной, т. е. большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается. В более точном смысле основное свойство нормального распределения характеризуется тем, что 68% всех наблюдаемых значений переменной лежит в диапазоне ±1 — стандартное отклонение от среднего, а диапазон ±2 стандартного отклонения содержит 95% значений. Если же говорить совсем просто, суть «нормальности» распределения состоит в том, что средние и близкие к средним значения встречаются чаще, чем крайние (экстремально большие и экстремально малые).
Почему именно такое распределение называется «нормальным»? Потому что оно типично для окружающего мира, действительности в целом. К примеру, если мы случайно отберем достаточно большое количество людей и измерим их рост, логично предположить, что большинство из них окажутся среднего или близкого к среднему роста, а число очень высоких и людей очень маленького роста будет сравнительно небольшим. Согласитесь, весьма странно в такой ситуации смотрелась бы толпа, состоящая в основном из «великанов» и «карликов».
Нормальное распределение описывается колоколообразной кривой (колокол Гаусса). В действительности нормальное распределение «в чистом виде» — т. е. полностью соответствующее кривой Гаусса — можно наблюдать довольно редко. Для большинства статистических методов важно, чтобы распределение в целом соответствовало нормальному. Наиболее распространенный (хотя и не единственный) способ тестирования распределения на нормальность — визуальный анализ диаграммы распределения. Наиболее удобная ее форма — уже упоминавшаяся нами столбчатая гистограмма.
На рисунке ниже приведена столбчатая гистограмма, показывающая распределение голосов, поданных за одну из политических партий по регионам России на федеральных парламентских выборах 2003 г. Кривая показывает идеальное нормальное распределение для данной переменной. Несмотря на отсутствие полного соответствия очевидна близость распределения переменной к нормальному.
Такого рода гистограмма строится на основе таблиц распределения частот встречающихся значений переменной в определенных интервалах. Число интервалов в современных статистических программах может быть задано пользователем. Таблица частот в данном случае будет иметь вид:
Как видно из гистограммы, мы имеем распределение, по сути, обратное нормальному: преобладают регионы с очень высокой или, напротив, очень низкой поддержкой данной партии, тогда как средние значения явно «провисают». Содержательно такую картину мы можем интерпретировать как электоральный раскол между регионами страны по критерию поддержки данной партии. Подобную картину можно было наблюдать, например, при голосовании за партию ХСС в Германии.
Интервал | Частота | % от всех случаев |
0-2 % голосов | 3 | 3,4% |
2-4% | 8 | 8,9% |
4-6% | 14 | 15,7%. |
6-8% | 23 | 25,8% |
8-10% | 26 | 29,3% |
10-12% | 8 | 8,9% |
12-14% | 3 | 3,4% |
14-16% | 2 | 2,3% |
16-18% | 1 | 1,1% |
18-20% | 1 | 1,1% |
В то же время ненормальность распределения сама по себе может представлять интерес для исследователя. К примеру, мы имеем следующее распределение электоральной поддержки некоторой политической партии по регионам страны: