Базы данных ивент-анализа

Кроме уже названной системы ЛУЕ18, на сегодняшний день существует целый комплекс баз данных ивент-анализа, который непрерывно дополняется новыми исследовательскими разработками. По мнению известного современного методолога ивент-анализа, профессора Канзасского университета Ф. Шродта, все базы данных можно подразделить на две большие группы. Первую группу составляют базы субъектно-ориентированные, т. е. ориентированные на акторов международных политических процессов. Они включают информацию о взаимодействии определенного набора акторов на протяжении определенного периода времени (например, государства, расположенные и имеющие интересы на Ближнем Востоке с 1970 по 1990 г.). Вторая группа баз данных — назовем ее проблемно-ориентированной — концентрируется на событиях, вовлеченных в конкретный исторический инцидент. Как правило, это крупный конфликт, например война в Персидском заливе.

«Классическими» представителями первой группы — субъектно-ориентированных баз данных и систем кодирования — являются ЛУЕ18, а также СОРБАВ и СКЕО.

База данных ЛУЕ18 была охарактеризована выше. Следует лишь отметить, что она и в настоящее время используется достаточно активно многими исследователями.

Система СОРБАВ (расшифровывается как СопШс! апС Реасе Ба(аВапк) связана с именем известного исследователя Э. Азара. Основные ее отличия от ЛЕ18 следующие:

• использование региональных источников за пределами Европы и Северной Америки;

•использование 16-классовой системы кодирования, изначально «привязанной» к интервальной шкале «конфликт—сотрудничество»;

• классификация событий по 8 типам, например: военные, дипломатические, символические, культурные и т. д.

Наиболее характерное отличие базы данных СК. ЕОМ (ТЬе Сотра-гаИуе КезеагсЬ оп (Ье Еуепгз оГ МаНопз Ба(а 8е() состоит в том, что традиционный формат кодирования дополняется обширным набором переменных, имеющих отношение к контексту события (в частности, принимаются в расчет другие события, связанные с кодируемым). Такой подход обусловлен тем, что СК. ЕОМ делает акцент на процедурах принятия решений акторами на международной арене. В рамках этой системы делается попытка проанализировать не только результаты политических действий, выражающиеся в тех или иных событиях, но собственно политический процесс.

Характерными представителями второй группы баз данных являются ВСО\У и СА8СОМ

Кодировочная система ВСО\У (ТЬе ВеЬаушга1 Согге1а(ез оГ \Уаг Ба(а 8е() разработана в 1987 г. Она включает кодированные данные по 45 крупным международным кризисам с 1816 г. Центральный вопрос, который поставили разработчики этой базы данных, состоял в следующем: в силу каких причин часть кризисов заканчивается развязыванием войны, а часть — нет? Такая постановка вопроса хорошо характеризует разницу между субъектно - и проблемно-ориентированными базами данных ивент-анализа.

Собственно, кодировочная система ВСО\У основывается на схеме \УЕ18, но при этом существенно увеличивает количество категорий (до 100) и проводит более четкую грань между действиями экономического, военного и вербального характера. К тому же ВСО\У — одна из наиболее разнообразных баз данных с точки зрения информационного обеспечения, что во многом обусловлено широтой хронологического охвата событий. Кроме новостных источников используются мемуары, хроники, архивные исторические документы.

Кодировочная система СА8СОМ (ТЬе Сотри(ег-А1СеС 8уз(ет Гог (Ье Апа1у818 оГ Ьоса1 СопШсгз) по своим базовым установкам напоминает ВСО\У — она также нацелена на анализ конфликтов. Однако во внимание здесь принимаются не только международные, но и внутренние конфликты в более узком хронологическом срезе: берется только период после Второй мировой войны. СА8СОМ отличает также более системно-теоретический подход. Авторы проекта исходят из насчитывающей 6 стадий схемы развития любого конфликта — от инициирования к урегулированию, — которая влияет на характер кодирования событий. Как и СК. ЕОМ, СА8СОМ учитывает не только собственно события, но и внешние факторы, оказывающие на них влияние. В целом это достаточно мощный аналитический инструмент как для сопоставления уже произошедших конфликтов, так и для сравнения текущих конфликтов с историческими их предшественниками. Система полностью компьютеризирована.

Использование статистических и математических методов для анализа событийной информации

Математические и статистические подходы с целью получения более глубоких и содержательных выводов на основе анализа информации о событиях особенно широко сегодня используются в американской политической науке. Проводимые в университетах США исследования очень разнообразны по своей методологии. Мы кратко охарактеризуем подходы, иллюстрирующие широту применения данных, собранных в рамках ивент-анализа.

Наиболее простой и традиционной методикой, применяемой для изучения событийной информации, является корреляционный анализ. Разумеется, для его использования необходимы данные, преобразованные до интервального уровня.

Используя корреляционный анализ, можно осуществлять поисковые исследования и проверять гипотезы. Например, в одном из любопытных исследований Ф. Шродта с помощью корреляционного анализа рассматривается взаимосвязь между поставками оружия одного государства другому и степенью влияния страны-поставщика на политический курс страны-получателя. В качестве исходных данных берутся:

• объемы поставок оружия (в денежном выражении) со стороны (1) США и (2) СССР нескольким странам Ближнего Востока;

•уровень конфликтности/сотрудничества во взаимоотношениях (1) США и (2) СССР со странами Ближнего Востока (измерялся на основе событийной информации, собранной в рамках базы данных СОРБАВ).

Переменная «степень влияния» была операционализирована через уровень корреляционных связей между двумя указанными выше переменными. Исследование проводилось в сравнительном ключе; одна из типичных картин динамики взаимосвязи переменных до и после факта поставки оружия (для СССР и США соответственно) приводится ниже. По одной оси координатной сетки отложен уровень взаимосвязи (значение коэффициента корреляции), по другой — время (10 лет до и 10 лет после заключения сделки, 0 по оси Хсоответст-вует моменту продажи вооружений) .

Некоторые выводы можно сделать на основе чисто визуального анализа приведенной схемы. Так, взаимозависимость политических курсов страны-поставщика и страны-получателя имеет тенденцию к росту в примерно трехлетний период до момента поставки оружия. Это связано с интенсивным переговорным процессом, который всегда предшествует заключению крупных сделок подобного рода. Другой интересный момент: уровень взаимосвязи политических курсов СССР и государств — импортеров советского оружия выше по сравнению с американским случаем. Это, вероятно, определяется большим удельным весом политико-идеологических соображений в принятии решений о поставке оружия в советском случае по сравнению с американским.

Одна из главных проблем, связанных с использованием корреляционного анализа в исследованиях международных отношений на базе событийной информации, — нелинейность большинства процессов в международной политике. Данная проблема в полной мере относится и к традиционному линейному методу поиска зависимостей — множественной регрессии. Поэтому по-настоящему эффективно работающих моделей, созданных на базе регрессионного анализа событийной информации, совсем немного.

Вернемся к одному из вопросов, типичных для проблемно-ориентированных баз данных ивент-анализа: в силу каких причин один кризис ведет к войне, а другой разрешается мирным путем? Прежде всего необходимо понять, можно ли четко разбить общую совокупность событийных последовательностей на два кластера: кластер последовательностей, ведущих к войне, и кластер последовательностей, ведущих к миру. Если найдем такие два кластера, то получим не только классификационный, но и эффективный прогностический инструмент. Взяв некую новую последовательность событий, даже и незавершенную (происходящую в настоящее время), мы могли бы вычислить близость этой событийной цепи к математическому центру одного и другого кластера и определить тенденцию (мирную или военную) развития процесса.

Однако другой возникающий здесь серьезный вопрос — каким образом сравнивать близость (удаленность) событийных цепей? — имеет большое значение с точки зрения такой крупной проблемы, как использование формализованных методов в проведении аналогий между несколькими удаленными в пространстве и/или времени последовательностями событий. До недавнего времени корректность аналогий была вопросом сугубо качественных исследований, однако появление баз событийных данных позволяет поставить его уже в иной, количественной плоскости: как количественно определить «расстояние» (в том понимании этого термина, которое свойственно кластер-анализу) от одной событийной цепи до другой? Один из подходов к его решению заключается в использовании для этого метрики, разработанной российским математиком В. И. Левенштейном. Метрика Левенштейна позволяет сопоставлять последовательности данных применительно к самым разным сферам — от задач филологии (буквенные и фонетические последовательности) до компьютерного распознавания речи.

В несколько упрощенном виде эта техника состоит в следующем. Расстояние Левенштейна между двумя последовательностями является суммой «весов» операций, необходимых для превращения одной последовательности в другую. Такое превращение производится с помощью трех типов операций:

• вставка элемента в последовательность;

• удаление элемента последовательности;

•замена элемента одной последовательности элементом другой последовательности.

Например, чтобы превратить последовательность букв слова «молоко» в последовательность букв слова «сметана», мы должны выполнить следующие операции:

• заменить м на с - солок о;

• заменить о на т - смлоко;

• заменить л на е - смеоко;

• заменить о на т - сметко;

• заменить к на а — смета о;

• заменить о на н — сметан; •вставить а — сметана.

В случае превращения слова «сметана» в слово «молоко» вместо последней операции вставки у нас возникла бы операция удаления (удалить а).

Ключевая задача состоит в том, чтобы определить «вес» каждой операции. Очевидно, что операции, устраняющие более существенные различия, должны иметь больший вес по сравнению с операциями, устраняющими менее существенные различия. Если продолжить лингвистические аналогии, то увидим, что при заимствовании слов одним языком у другого гласные фонемы будут чаще меняться, чем согласные (русское «донор» от латинского «сопаге»). При изменении же согласных более вероятно изменение, к примеру, латинского с на русское ц или к, но никак не на м или н.

Применительно к ивент-анализу можно обоснованно предположить, что замена элемента последовательности действий, обозначенной «ультиматум» (код "\УЕ18 174), на элемент, обозначенный «обещание политической поддержки» (51), отражает гораздо более существенные различия по сравнению с заменой того же «ультиматума» на «военное вмешательство» (223). Соответственно, операция по замене элемента в первом случае должна весить гораздо больше, чем во втором.

Несколько другая схема рассуждения применима к операциям вставки и удаления. Логично предположить, что вставка и удаление широко распространенных в международной практике действий (например, двусторонних консультаций по определенному вопросу) должны обладать меньшим весом, чем вставка и удаление редких событий (объявления войны или заключения рамочного межгосударственного договора о сотрудничестве).

Определение конкретной «стоимости» операций вставки и удаления — более простая задача по сравнению с определением весов для операций замены. Это связано с тем, что частота того или иного политического действия может быть легко посчитана, если мы располагаем большими массивами событийной информации за длительный период времени (а мы ими располагаем — в виде многочисленных имеющихся баз данных). Гораздо сложнее избежать умозрительности в определении весов операций замены. А ведь нужно не просто сказать, что стоимость операции в одном случае больше, в другом меньше (как в указанном выше простейшем примере), требуется указать точный вес в интервальном выражении.

Для решения этой проблемы применяются сложные техники, в частности метод нейронных сетей, который мы будем разбирать несколько позже. Так, в одном из исследований в компьютер были введены последовательности событийных кодов ВСО"\У, разбитые на две категории: «военные кризисы» и «невоенные кризисы». Задачей обучения сети стало нахождение весов, продуцирующих малые расстояния внутри одной категории и большие расстояния между последовательностями из разных категорий.

Одной из наиболее практически значимых задач, которые могут быть решены с использованием событийной информации, является задача предупреждения политических катаклизмов. В американской политической науке Еаг1у "\Уагшп§ — «раннее предупреждение» — фактически сформировалось как самостоятельное направление, традиционно привлекающее внимание специалистов и лиц, принимающих решения.

Учитывая специфику событийной информации, наиболее логичным методом диагностики предкризисного состояния, на первый взгляд, является анализ временных рядов. Временными рядами называют данные, представленные в виде последовательностей измерений, упорядоченных в неслучайные моменты времени. Иными словами, для исследователя важно, что изменения значений переменной происходят в фиксированные промежутки времени. Такой подход вполне соответствует природе событийной информации в политических исследованиях. Отображенные выше (см. с. 242) на схеме изменения конфликтности в поведении Ирана по отношению к Ираку с 1979 по 1997 г. — типичный временной ряд данных.

В общем виде методы анализа временных рядов базируются на формальном описании ряда, т. е. подборе соответствующей математической функции. Двумя основными компонентами ряда являются сезонность и тренд. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Ниже схематично показана сезонная динамика с восходящим трендом.

В экономике методы анализа временных рядов являются эффективным прогностическим инструментом. Формально описав сезонность и тренд, мы сможем экстраполировать динамику колебания признака и предсказать будущие значения временного ряда по настоящим и прошлым значениям.

Однако существует ряд причин, делающих весьма проблематичным использование методов анализа временных рядов для предсказания политических кризисов. К ним относятся прежде всего:

• отсутствие (или слабая распространенность) сезонности в процессах перехода от стабильности к кризису (и в политических процессах в целом). В экономике цикличность процессов широко распространена в связи с вполне рационально объяснимой динамикой спроса — например, в августе спрос на путевки в дома отдыха средней полосы России будет выше, чем в ноябре. В политике проявления сезонности эпизодичны: один из немногих примеров — колебания активности политических партий в зависимости от близости даты выборов;

•слабая «плавность» перехода в политических процессах одного состояния в другое, особенно это касается наступления состояний кризиса. Как правило (и об этом свидетельствуют событийные данные ивент-анализа), политический кризис представляет собой скачкообразное изменение, которому в математике в наибольшей мере соответствует логистическая кривая типа:

Названные причины побуждают исследователей искать альтернативные методы прогнозирования политических кризисов. Одним из таковых стал кластер-анализ, достаточно широко используемый в ивент-анализе.

Пример использования кластер-анализа — исследование динамики политического поведения государств-акторов в Ближневосточном регионе с 1979 по 1995 г. В качестве государств, имеющих политическое присутствие в регионе, взяты Египет, Израиль, Палестина, Иордания, Ливан, Сирия, США и СССР (Россия). Соответственно, эмпирическую базу составили данные об уровне конфликтности / сотрудничества в действиях каждого актора в отношении каждого другого. Исключение составили действия США в отношении СССР и действия СССР в отношении США, так как их интеракции были связаны со многими иными факторами, кроме собственно ситуации в Ближневосточном регионе. Изменения в уровне конфликтности фиксировались с месячным временным интервалом. Таким образом, исследование базируется на данных о поведении 54 пар государств за 192 месяца. Данные зафиксированы в таблице:

Июнь Июль Август Сентябрь И далее (всего 1979 1979 1979 1979 192 месяца)
18К - РАЬ	Коды ЛУЕ18, преобразованные в более современный формат (так называемый КЕБ8)
РАЬ - 18К
18К - ЮК и далее (всего 54 пары)

Особый интерес представляет подход к кластеризации событийной информации. В исследовании, нацеленном на поиск индикаторов политического кризиса, очевидное значение имеет временная составляющая, тогда как традиционные методы кластер-анализа ее не учитывают. Выход был найден: кластеризация проводилась отдельно по каждому из 4-месячных блоков данных, т. е. в качестве переменных в компьютер вносились данные по четырем последовательно идущим месяцам (например, первый блок — с июня 1979 г. по сентябрь 1979 г.), всего 216 случаев для каждого блока (54х4).

Оригинальность гипотезы исследования состояла в том, что индикатором предкризисной фазы явилось резкое изменение плотности кластера, которую в упрощенном виде можно представить как сумму всех внутрикластерных расстояний1. Для того чтобы проверить эту гипотезу, на подготовительной стадии исследования была также сформулирована качественная (сделанная с помощью методов содержательного анализа) периодизация развития ситуации в регионе, содержащая семь стадий:

Обозначение	Период	Число месяцев	Характеристика
Кэмп-Дэвид (Сатр БауШ)	июнь 1979 - май 1982	35	Период до израильского вторжения в Ливан в 1982 г.
Ливан (ЬеЪапоп)	июнь 1982 - май 1985	36	Израильское вторжение в Ливан
Таба (ТаЪа)	июнь 1985 — ноябрь 1987	30	С момента вывода израильских войск на юг до начала интифады
Интифада (1пИГаСа)	декабрь 1987 — июль 1990	32	Палестинская интифада
Кувейт (КшуаИ)	август 1990 — октябрь 1991	15	Иракское вторжение в Кувейт до начала мадридских переговоров
Мадрид (МаСпС)	ноябрь 1991 — август 1993	22	Мадридские мирные переговоры
Осло (О81о)	сентябрь 1993 — июнь 1995	22	Мирные переговоры в Осло

Вопрос заключался в том, существует ли «привязка» изменения плотности кластера во времени к предложенной периодизации. Ниже приводится схема, где сетка периодизации наложена на график динамики плотности.

Накануне перехода системы в следующую фазу виден резкий рост плотности кластера, за которым следует резкий спад, совпадающий с переходом. Единственная стадия из семи, где этот критерий не работает, — кувейтская.

Естественно, изменение плотности кластера во времени не является «абсолютным барометром». Так, существенный недостаток методики состоит в том, что невозможно предугадать характер приближающегося изменения. В то же время данное исследование является примером интересного и весьма нетривиального метода работы с событийной информацией.