Аппроксимация функции
Решение такой задачи может осуществляться методом экстраполяции. Термин «экстраполяция» отражает перенос в будущее наблюдаемых трендов. В более конкретном математическом смысле экстраполяция предполагает решение задачи нахождения функции, оптимально описывающей набор данных типа ((х1 у1), (х2, у2)— (Хы, Уы)) или (у((1), у((2) ... у((")). Так, на рисунке ниже показана аппроксимация логистической кривой (кстати, именно логистическая кривая хорошо описывает многие социальные и политические процессы).
Решение этой задачи напоминает еще об одном уже изучавшемся нами статистическом методе — регрессионном анализе. В регрессионном анализе мы устанавливаем влияние независимых переменных на зависимую переменную на основе построения линии регрессии, отражающей основную тенденцию связи признаков. Вычислив уравнение регрессии, мы можем предсказывать значения зависимой переменной по значениям независимых переменных. При этом регрессионный анализ лучше справляется со связями между признаками, которые описываются прямой линией (мы изучали именно линейный регрессионный анализ). Нелинейные по своей природе нейронные сети гораздо лучше справляются с задачами аппроксимации нелинейных зависимостей, которые в политической реальности встречаются в изобилии.
Все искусственные нейронные сети являются мощным инструментом обнаружения скрытых связей. В таком качестве они могут использоваться не только для построения прогностической функции — поиска конкретной меры влияния независимых переменных на зависимую, — но и для отбора адекватных независимых переменных. Такая задача актуальна для разного рода поисковых исследований, когда имеют довольно смутное представление о тех факторах, которые реально влияют на интересующую нас переменную. Нейронная сеть может работать с большим множеством переменных, она способна выделить из общей массы факторов действительно значимые.
В качестве примера приведем реальный случай нейросетевого моделирования в области политической науки. Была поставлена задача отобрать из большого числа независимых переменных ограниченный набор факторов, оказывающих наибольшее влияние на исход президентских выборов в США. В результате было получено всего пять значимых факторов:
1) уровень конкуренции при выдвижении от правящей партии;
2) наличие существенных социальных волнений во время правления действующего президента;
3) спад или депрессия в год выборов;
4) значительность изменений, совершенных действующим президентом в политике;
5) активность третьей партии в год выборов.
В то же время решение задачи отбора действительно значимых независимых переменных из большого числа потенциально значимых (в какой-то мере она близка задаче редукции данных в факторном анализе) имеет определенные ограничения. Как уже знаем, качество работы сети напрямую зависит от объема обучающей выборки. Объем же обучающей выборки напрямую зависит от числа переменных на «входе» сети. Искушение «запихнуть» в нейронную сеть все мыслимые и немыслимые факторы может быть очень велико, но для получения приемлемого результата понадобятся многие тысячи обучающих примеров.
Объем обучающей выборки зависит не только от числа переменных, но и от уровня их измерения. Как и большинство методов, нейронные сети наиболее успешно работают с интервальными данными. Самый сложный случай — номинальные переменные, которые могут принимать много разных значений. Например, имеется номинальная переменная «электоральные предпочтения россиян на парламентских выборах 2003 г.», приобретающая 24 разных значения в соответствии с количеством строк бюллетеня: «Единая Россия», КПРФ, ЛДПР и т. д. В принципе, мы можем присвоить каждому значению числовой код (например: «Единая Россия» — 1, КПРФ — 2, ЛДПР — 3 и т. д.), однако при работе с нейронной сетью существует риск возникновения ложного упорядочения, т. е. КПРФ окажется где-то между «Единой Россией» и ЛДПР.
Более правильный способ заключается в кодировании 1-из-N, когда одна номинальная переменная представляется несколькими числовыми переменными. Количество числовых переменных для каждой номинальной переменной равно количеству всех значений номинальной переменной (К). При этом в каждом случае только одна из N переменных принимает ненулевое значение. В реальности кодирование переменных для случая с политическими партиями в бюллетене из 24 позиций будет иметь следующий вид:
«Единая Россия» = (1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) КПРФ = (0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) ЛДПР = (0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) И т. д. (всего 24 переменных)
Очевидно, что такой подход приведет к катастрофическому увеличению размерности данных и, значит, — к катастрофическому увеличению объема обучающей выборки. В этой ситуации следует подумать об ином способе представления данных, не предполагающем столь громоздкого кодирования. Например, выделить всего три значения переменной «электоральные предпочтения россиян на парламентских выборах 2003 г.»: «партия власти и лояльные» (1,0,0); «левые» (0,1,0); «правые» (0,0,1)1.
Разумеется, мы не считаем приведенную трехкатегориальную схему оптимальной — это просто учебный пример.