Проблемы, связанные с использование сводных данных
Из предшествующего изложения видно, что специфические проблемы, встающие при анализе сводных данных, меняются в зависимости от типов и источников этих данных. Существуют, однако, некоторые общие проблемы, с которыми всегда приходится сталкиваться при использовании сводных данных. Мы рассмотрим две такие проблемы, не ставя перед собой цели предложить готовые их решения, но желая предупредить исследователя о необходимости не упускать их из поля зрения. Обсудим сначала так называемую проблему экологической ошибки, которую необходимо учитывать при составлении плана исследования и при спецификации и операционализации переменных, равно как и собственно при принятии решения об использовании сводных данных применительно к конкретному исследовательскому вопросу.
Исследователь рискует совершить одну из нескольких экологических ошибок всякий раз, как он пытается, основываясь на данных, собранных на одном уровне анализа, обобщить результаты на другой уровень анализа. Например, если мы, собирая данные о расовой принадлежности получателей государственного социального пособия в разных штатах США, обнаружим наличие сильной прямой зависимости между получением регулярной помощи от государства и принадлежностью к небелому населению, у нас может возникнуть искушение распространить этот результат на более высокий, т.е. общенациональный, уровень и объявите, что эта зависимость верна для данного государства в целом, либо, наоборот, обобщить <вниз>, допустив, что зависимость, обнаруживаемая в каждом отдельном штате, будет также верна и для каждого из его округов.
Если же сведением данных мы занимаемся на общенациональном или окружном уровне, то, возможно - а по сути дела, почти наверняка, - мы обнаружим, что на этих уровнях наблюдается зависимость, сильно отличная от той, которая была получена на основе данных, сведенных на уровне штата. Эмпирическое изучение <экологической> проблемы показало, что зависимости на разных уровнях могут быть не просто слабее или сильнее, но они могут быть даже разнонаправленными. Когда исследователь экстраполирует результаты одного уровня анализа на другой, он рискует неверно проинтерпретировать свои данные и прийти к ошибочным выводам.
Значит ли это, что мы должны использовать только те данные, которые были сведены на уровне единиц анализа, изначально выбранных нами для изучения, и что мы в своем исследовании совсем не можем обобщать <вверх> или <вниз>? Нет, это не так. Существуют методы анализа данных, которые при определенных условиях помогают по меньшей мере свести к минимуму тот риск, с которым бывают связаны межуровневые обобщения. Когда исследователь видит, что он волей обстоятельств вынужден использовать данные, сведенные не на том уровне анализа, с которым он имеет дело, а на другом, то, прежде чем собирать данные, он должен предусмотреть применение одного или нескольких таких методов и проследить, чтобы имеющиеся у него данные отвечали их требованиям.
Наверное, еще важнее проявлять бдительность - памятуя о риске <экологических> заключений - при планировании исследования и операционализации понятий. Здесь надо по возможности избегать применения показателей, требующих обобщения результатов разных уровней анализа. Пусть, например, задачей нашего исследования является определение зависимости между членством в профсоюзе и поддержкой демократической партии (в США), и в нашем распоряжении оказываются сводные данные по избирательным округам, где указано, какой процент избирателей каждого округа голосовал на последних выборах за демократов и какой процент трудящихся каждого округа состоит в профсоюзе. Мы сможем использовать эти данные только в том случае, если единицей нашего анализа являются избирательные округа, а целью анализа - суждения типа: <Чем больше в округе членов Профсоюзов, тем больше вероятность, что на выборах в Нем победит кандидат от демократов>. Однако если единицей анализа у нас выступают отдельные избиратели (индивиды), то мы будем стремиться к получению суждений типа: <Члены профсоюзов, как правило, голосуют за кандидатов от демократов>. При этом мы не можем сколь-нибудь уверенно использовать сводные данные по избирательным округам, и будет разумнее, если мы попытаемся поискать данные, относящиеся к членству в профсоюзе и поведению на выборах отдельных индивидов.
Вторая (близкая первой) группа проблем, часто встречающихся при анализе сводных данных, связана с трудностями построения на основе сводных данных валидных показателей. Редко когда случается обнаружить сводные цифры, которые можно было бы использовать в качестве непосредственной меры какого-либо интересного для политолога понятия. Чаще всего мы имеем дело с числами, представляющими такие переменные, которые можно рассматривать как часть какого-то более крупного явления, с которым связаны наши базовые понятия. При изучении политических последствий научно-технического прогресса, например, исследователю, возможно, не удастся найти сводных данных, непосредственно отражающих уровень научно-технического прогресса в различных странах. Но он, наверное, сможет получить информацию о том, какая часть населения каждой страны грамотна, или живет в населенных пунктах численностью свыше 25 тыс. человек, или занята в несельскохозяйственных отраслях экономики; все эти параметры могут рассматриваться как составляющие научно-технического прогресса. Подобные цифры часто называют необработанными ("сырыми") данными; они интересуют исследователя не сами по себе, а как основа для создания важных в рамках конкретного исследования понятий.
Перед исследователем стоит задача найти поддающиеся теоретическому и методологическому обоснованию пути превращения необработанных данных в пригодные для использования меры. Существует два основных подхода к этому-через формирование индексов и через преобразование данных.
Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов - аддитивные, мультипликативные и взвешенные. Аддитивный индекс употребим в тех случаях, когда доступные исследователю данные отражают различные меры одной и той же базовой переменной. Например, для получения показателя понятия <размеры экспорта сельскохозяйственной продукции> мы могли бы просто сложить все отчетные цифры, отражающие количество экспортированной пшеницы, кукурузы и соевых бобов (в бушелях); для выяснения размеров <религиозного сообщества> в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране.
Часто, однако, сводные данные отражают меры различных сторон некоторого явления, что не допускает возможности суммирования. Следуя законам математической логики, мы не можем, например, складывать число людей, участвовавших в беспорядках, с числом часов, в течение которых длились эти беспорядки, в надежде тем самым построить индекс степени серьезности беспорядков. Число участников и продолжительность являются неаддитивными элементами явления под названием <беспорядки>. Можно, однако, утверждать, что эти два элемента взаимодействуют друг с другом, и тогда для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив таким образом число <человеко-часов>, пришедшихся на беспорядки. Полученный таким путем показатель называется мультипликативным индексом. Подобные индексы бывают, нужны в тех случаях, когда мы измеряем различные аспекты некоторого понятия.
При определенных обстоятельствах необработанные данные - для того чтобы стать обоснованным показателем понятий - нуждаются во взвешивании с помощью некоторого эталона. Например, использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения. Чтобы получить взвешенный индекс, мы должны одну переменную (число участников антиправительственных манифестаций) взвесить с помощью другой (численности населения). Точно так же, исходя из предположения, что десять демонстраций в год указывают на большую политическую нестабильность, чем те же десять демонстраций, но растянутые на десять лет, мы могли бы число антиправительственных демонстраций взвесить с помощью эталонной переменной <время>, получив индекс количества демонстраций в год. Этот конкретный тип взвешивания называется стандартизацией.
Взвешивание - технически простая операция, но с концептуальной стороны зачастую бывает трудно определить, нуждается ли конкретная мера во взвешивании и что следует выбрать в качестве эталона веса. Неясно, к примеру, что выступает в роли спускового крючка гонки вооружений: абсолютные уровни вооружений вовлеченных в гонку государств или определенное соотношение этих уровней? Следует ли в качестве эталона веса использовать уровень вооружений государства-противника? Ответы на подобные вопросы обычно можно получить посредством эмпирического выяснения того, как именно применение взвешенных и невзвешенных показателей влияет на результаты статистического анализа.