Валидность

ВалидностьМы не так уж часто имеем возможность непосредственно измерить понятия, используемые в социологических Теориях. Такие понятия, как власть, демократия и представительство, не так просто представить количественно, как понятия типа длины и веса. Нам приходится пользоваться показателями, лишь косвенно соответствующими понятиям, которые они представляют. А в таком случае всегда существует опасность, что выбранные показатели будут неадекватно отражать понятия, которые мы хотим с их помощью измерять. Для обозначения степени соответствия измерений понятиям, которые эти измерения должны отражать, используется термин валидность. Интересоваться валидностью измерения - то же самое, что интересоваться, действительно ли с помощью данного измерения мы измеряем то, что предполагали измерять. Обеспечение валидности часто считается основной проблемой, связанной с измерением в социальных науках.

Чтобы быть валидным, измерение должно быть исчерпывающим и полным. Если, например, мы сравниваем качество коммунальных служб в разных городах, у нас может возникнуть искушение считать показателем качества системы образования количество преподавателей в школах. Это - неуместное измерение, поскольку количество работающих в системе школьного образования в значительной степени определяется количеством учащихся и размерами города и может иметь мало общего с качеством образования. Если за показатель качества системы образования принять отношение количества учащихся к количеству учителей, мы получим более уместное измерение, так что различия, вызванные размерами города, уменьшатся или вообще исчезнут. Тем не менее измерение все еще останется недостаточным.

Образование - это не только преподаватели. Образование - это также школьные задания, фильмы, книги, учебные пособия и множество других факторов. Рассмотрение каждого из этих факторов в отрыве от остальных может создать неверное впечатление о качестве системы образования. Система школьного образования может иметь в высшей степени благоприятное соотношение учащихся и преподавателей, однако недостаточное количество средств обучения и учебных материалов. Было бы ошибкой утверждать, что эта система школьного образования не отличается от системы с таким же соотношением учащихся и преподавателей и прекрасными средствами обучения и учебными материалами. Если мы стремимся к валидности, мы должны попытаться выбрать такие измерения, которые были бы и местными и полными.

Ответ на первый вопрос начинается с процесса операционализации. Мы можем определить валидность как степень, в которой различия оценок измерения отражают только различия в распределении значений переменной, которую мы собираемся измерять. Так как мы, вероятно, никогда не сможем достичь полной и всеобщей валидности, наша цель должна заключаться в выборе измерений, которые были бы минимально чувствительны к воздействию всех иных различий, кроме различий, обусловленных интересующей нас переменной. Для этого необходимо внимательно рассмотреть все процессы, связанные с нашими измерениями, для обнаружения возможных причин различий в оценках. На этом этапе мы должны быть особенно внимательны, чтобы застраховаться от влияния систематических ошибок.

Рассмотрим такой пример. Возможно, нам понадобится измерить, в какой степени граждане разных государств согласны с политикой своих правительств. Мы решаем Использовать в качестве показателя согласия или несогласия ответы на ряд специально подготовленных вопросов. Мы считаем, что единственным источником различий в ответах на вопросы являются различия мнений. Однако минутное размышление наводит на мысль о другом возможном источнике вариаций. Если среди исследуемых нами государств есть государства с авторитарным правительством, прибегающим к услугам секретной полиции. Для подавления инакомыслия и рассматривающим любую критику своей политики как акт государственной измены, граждане этих государств, вполне возможно, побоятся высказывать в интервью несогласие со своим правительством. В этом случае оценки, полученные для нашего измерения, могут по крайней мере в той же степени определяться отношением правительства данного государства несогласным, в какой - мнением интервьюируемых, поскольку вероятность ошибки измерения такого рода очень высока, подготовленные вопросы оказываются неподходящей операционализацией.

Сходным образом в самом начале процесса исследования мы должны позаботиться о полноте. Если мы хотим измерить относительное влияние различных групп интересов в законодательном собрании штата, можно подумать об использовании в качестве показателя газетных сообщений о выступлениях этих групп перед законодательными комиссиями. Однако следует спросить себя, сводится ли политическое влияние к произнесению клятвенных заверений на публичных заседаниях. Эта деятельность законно считается частью процесса влияния, однако существует так много других средств оказания влияния, что измерение, опирающееся исключительно на произнесение заверений как показатель влияния, оказывается неполным.

Таким образом, получение уместных и относительно полных операционализации зависит как от хорошего знания объекта нашего исследования, так и от осуществления тщательного логического анализа альтернативных операционализации. Однако проверить валидность наших измерений для определения того, хороши ли они, можно лишь после того, как собраны данные. Процесс оценки валидности измерений называется валидизацией.

Имеется четыре основных подхода к валидизации. Первый часто называется прагматической валидизацией, поскольку валидность измерения оценивается на основе данных о том, насколько хорошо оно позволяет предсказывать поступки и события. Например, мы разрабатываем измерение для определения пригодности кандидатов на общественную должность, с точки зрения избирателей. Некоторый показатель валидности этого измерения можно получить, применив его ко всем кандидатам в сенат США в данном избирательном году и предсказав их шансы быть выбранными на основе сравнительных оценок по шкале привлекательности для избирателей. Чем более успешно мы предскажем результаты выборов для всех кандидатов, тем сильнее наша уверенность в валидности измерения, в том, что оно точно отражает понятие, которое мы имеем в виду. Принято говорить, что измерения, позволяющие предсказать будущие события, обладают прогностической валидностью.

Прагматическая валидизация требует наличия у переменных некоторого альтернативного показателя, который, по нашему убеждению, является их валидным отражением. Мы проверяем наши измерения по этому альтернативному показателю, как могли бы проверять точность сообщения о возрасте по свидетельству о рождении. К сожалению, для понятий, используемых в социологических исследованиях, редко встречаются явно валидные альтернативные показатели. В итоге нам обычно приходится рассчитывать на валидизацию второго типа - конструктную валидизацию.

Конструктную валидизацию осуществляют, выводя валидность измерения из данных о степени соответствия реальных соотношений между оценками по различным измерениям ожиданий, следующих из теории, предписывающей нам использовать данный показатель. При этом рассуждение ведется по двум направлениям.

Прежде всего, мы должны сказать себе: <Если понятие Y положительно связано с понятием Y и отрицательно - с понятием Z (как и предсказывает наша теория), верно будет также и то, что оценки понятия X в валидном измерении будут положительно связаны с оценками понятия Y в валидном измерении и отрицательно - с оценками понятия Z в валидном измерении>. Мы не можем валидизировать измерение, сравнивая оценки в этом измерении с оценками той же переменной в другом измерении, которое, как мы знаем, является валидным (как в случае свидетельства о рождении). Однако мы можем судить о его валидности потому, в какой степени использование данного измерения в качестве показателя переменной создает те же типы отношений между данной переменной и другими переменными, которые мы ожидаем в соответствии с нашей теорией.

В качестве примера возьмем изучение международных сообществ. Мы могли бы построить измерение надежности такого союза на основе контент-анализа газетных публикаций соответствующих стран. Является ли валидным показателем надежности сообщества двух стран то, что газеты данного государства пишут о другом государстве? Мы могли бы ответить на этот вопрос, рассуждая следующим образом: <В соответствии с нашей теорией, чем надежнее сообщество государств, тем чаще они будут одинаково голосовать в ООН и тем меньше ограничений на взаимную торговлю они будут накладывать. Поэтому оценки надежности сообщества в валидном измерении будут положительно связаны с оценками в измерениях одинакового голосования в ООН и отрицательно связаны с оценками в измерениях количества торговых ограничений. Затем мы переходим к анализу данных, необходимому для установления того, подтверждается ли это ожидание нашими наблюдениями. Если соотношения окажутся такими, как ожидалось, наша уверенность в валидности измерения надежности сообщества будет выше. Если соотношения будут иными, чем мы ожидали, мы зададимся вопросом, надежным ли измерением для этого понятия мы располагаем>.

То, что мы только что описали, часто называют внешней валидизацией. При этом осуществляется сравнение оценок в измерении, подвергающемся валидизации, с оценками в измерениях для других переменных. Разумеется, для использования этого метода валидизации нам придется включить в наше исследование измерения других переменных. Это означает, что нам следует обдумывать способы валидизации наших измерений уже на ранних этапах процесса исследования. Безусловно, к тому моменту, когда мы будем готовы разрабатывать план исследования, мы должны знать, как будет проверяться валидность наших измерений, для того чтобы наверняка собрать всю необходимую информацию.

Попытки внешней валидизации дадут убедительные доказательства валидности нашего измерения для одной переменной лишь в том случае, если мы будем убеждены в валидности измерений, используемых для остальных переменных. Так, в последнем примере мы не смогли бы сделать никаких выводов относительно валидности измерения надежности сообщества на основе соотношений оценок в данном измерении и оценок двух других переменных, если бы мы не считали показатели одинакового голосования и торговых ограничений валидными.

Поскольку часто бывает трудно обнаружить безусловно валидные показатели для переменных, с которыми должна быть связана ключевая переменная, процедуры внешней валидизации следует применять с осторожностью. Все это очень напоминает процедуру проверки гипотезы. Никакой отдельно взятый результат не гарантирует валидности (или невалидности) измерения. Скорее, по мере накопления случаев успешной валидизации наша уверенность в валидности измерения возрастает. По этой причине для пользования во внешней валидизации разумно искать как можно больше предсказанных теорией отношений. Чем больше имеется в нашем распоряжении разных способов проверки валидности, тем надежнее наш результат.

Та же самая логика рассуждений применима ко второму типу конструктной валидизации - внутренней, или конвергентной, валидизции. Этот тип валидизации включает разработку нескольких измерений для одной и той же переменной и сравнение между собой этих разных измерений. Мы считаем, что, если каждый из показателей дает для рассматриваемого понятия валидное измерение, оценки, получаемые конкретными объектами в этих измерениях, должны быть тесно связаны. Если и Л, и В, и С являются валидными измерениями для, то оценки любого конкретного объекта в измерениях Л В и С должны быть очень близки.

Предположим, например, что мы хотим получить показатель для качества уличного освещения в окрестностях жилья в рамках изучения работы коммунальных служб. Мы могли бы использовать в качестве такого показателя оценку достаточности уличного освещения, по мнению жителей (выявляется с помощью выборочных интервью). Мы можем выборочно опросить живущих по соседству людей, насколько хорошо, по их мнению, освещена улица около их дома, и взять среднюю оценку за мерукачества уличного освещения. Чтобы осуществить внутреннюю валидизацию, мы можем измерить качество уличного освещения также:

  1. использовав световой счетчик для получения физической меры яркости и распределения освещения;
  2. получив оценки освещенности, сделанные специально обученными наблюдателями;
  3. попросив жителей сравнить освещение на улицах с освещением на фотографиях, изображающих улицы, освещенные в разной степени, и усреднив их оценки для получения значения освещенности окрестностей их домов.

Таким 6разом, мы получаем четыре измерения переменной. Если каждое из них является валидным, все они должны быть тесно связаны. Можно проверить это с помощью соответствующих статистических расчетов. Если мы обнаружим, что оценки измерения, в основе которого лежат ответы на вопросы интервью, слабо связаны с оценками остальных трех измерений и что при этом оценки этих трех измерений тесно связаны друг с другом, у нас будет основание подозревать что первое измерение невалидно.

Это очень похоже на взвешивание одного и того же предмета на трех разных весах. Если каждые весы показывают точный вес и у нас нет оснований считать, что в ходе эксперимента вес объекта изменился, мы вправе ожидать что все эти весы покажут один и тот же вес. Если еще одни весы показывают вес, отличный от данного, можно подозревать, что они не отрегулированы.

Вы также можете посмотреть следующие статьи: