Формирование репрезентативной выборки

Процедуры формирования репрезентативной выборкиКак видно из примеров предыдущего раздела, не все выборки в равной степени репрезентативны. Действительно, фиаско, постигшее <Литэрари дайджест>, хотя и один из самых известных, однако вряд ли единственный пример исследования, опиравшегося на плохо сформированную выборку.

Предварительные выборы, в которых люди участвуют по собственной воле и могут голосовать за кандидата более одного раза; уличные интервью, в которых выбор места и невозможность контроля за прохожими могут оказать сильное воздействие на результаты результаты проводимых законодателями опросов в большой степени зависят от взглядов более красноречивого и интересующегося политикой меньшинства, представители которого, скорее всего, и будут отвечать на заданные вопросы; анализ иностранной прессы, пропагандистских материалов или материалов, опубликованных исключительно в англоязычных источниках, которые могут почему-либо отличаться от других источников того же самого типа, а также слепое формирование выборки, когда исследователь просто оставляет в определенном месте пачку анкет с инструкциями по их заполнению и отказывается от всякого контроля за отбором респондентов (подход, особенно характерный для студентов-дипломников), - все это типичные примеры смещения выборки.

Частично эти трудности можно разрешить с помощью осторожного (и очень строго ограниченного) определения совокупности, на которую мы собираемся распространить наши выводы. В случае уличных интервью, например, мы могли бы пожелать распространить полученные результаты лишь на тех людей, которые проходят в данном месте между 10.00 и 11.15 утра 4 марта. Однако с гораздо большим успехом имеющиеся трудности можно разрешить, лишь разработав систематическую и гораздо более изощренную процедуру отбора объектов для анализа.

Ведущий принцип, лежащий в основе такой процедуры, - это принцип рандомизации, случайности. Выборка называется случайной (иногда мы будем говорить простая случайная или чистая случайная выборка), если выполняется два условия. Во-первых, выборка должна быть построена таким образом, чтобы любой человек или объект в пределах совокупности имел равные возможности быть отобранным для анализа. Во-вторых, выборка должна быть сформирована так, чтобы любое сочетание из n объектов (где n - просто количество объектов, или случаев, в выборке) имело равные возможности быть отобранным для анализа. Все это звучит довольно сложно.

И действительно, это более строгое определение случайности, чем то, которым мы пользуемся в быту; однако в основе своей случайный выбор - довольно простое и незамысловатое понятие. Это почти то же самое, что выбор с помощью лотереи. Если у нас имеется совокупность, состоящая из 1000 человек, чье поведение мы хотим изучить, исследовав репрезентативную выборку, состоящую из 100 человек, мы могли бы написать имена всех 1000 членов совокупности на листочках бумаги одинакового размера, сложить их в барабан, хорошо перемешать и отобрать имена 100 человек в нашу в выборку. При такой процедуре каждый человек имеет равную вероятность быть выбранным (10 шансов из 1 000, или, иными словами, 1 шанс из 10), любое возможное сочетание из 100 человек также имеет равную вероятность выбора. Наличие этих двух видов равновероятности и делает выборку случайной.

При исследовании совокупностей, которые слишком велики, для того чтобы можно было осуществить настоящую лотерею, часто используются простые случайные выборки. Выписать имена нескольких сотен тысяч объектов, сложить их в барабан и выбрать несколько тысяч - это все же нелегкая работа. В таких случаях используется другой, однако столь же надежный способ. Каждому объекту в совокупности присваивается номер. Последовательность чисел в таких таблицах обычно задается компьютерной программой, называемой генератором случайных чисел, который, в сущности, помещает в барабан большое количество чисел, случайным образом вытаскивает их и выпечатывает в порядке получения. Иными словами, имеет место все тот же процесс, характерный для лотереи, однако компьютер, используя не имена, а числа, осуществляет универсальный выбор. Этим выбором можно пользоваться, просто присвоив каждому из наших объектов номер.

Таблица случайных чисел типа той, может использоваться несколькими разными способами, и в каждом случае необходимо принять три Решения. Во-первых, следует решить, сколько разрядов Мы будем использовать, во-вторых, необходимо разработать решающее правило для их использования; в-третьих нужно выбрать исходную точку и способ прохождения по таблице.

Первое решение определяется просто количеством объектов в совокупности. Если совокупность состоит из менее чем 10 объектов, используются однозначные числа; при числе объектов от 10 до 99 - двузначные числа; от 100 до 999 - трехзначные и т. д. В каждом случае мы должны позаботиться о том, чтобы каждый перенумерованный объект имел возможность быть выбранным.

Как только это сделано, мы должны разработать правило, которое бы связывало числа в таблице с номерами наших объектов. Здесь существуют две возможности. Самый простой способ (хотя и не обязательно самый правильный) - использовать лишь те числа, которые попадают в число номеров, приписанных нашим объектам. Так, если мы имеем совокупность, состоящую из 250 объектов (и, таким образом, используем трехзначные числа), и решаем начать с левого верхнего угла таблицы и двигаться вниз по столбцам, мы включим в нашу выборку объекты с номерами 100, 084 и 128 и пропустим числа 375 и 990, не соответствующие нашим объектам. Этот процесс будет продолжаться до тех пор, пока не будет определено число объектов, нужных для нашей выборки.

Более трудоемкая, однако методически более правильная процедура основывается на положении, что для сохранения случайности, характерной для таблицы, должно быть использовано каждое число данной размерности (например, каждое трехзначное число). Следуя данной логике и вновь имея дело с совокупностью из 250 объектов, мы должны разбить область трехзначных чисел от 000 до 999 на 250 одинаковых промежутков. Поскольку таких чисел 1000, мы делим 1000 на 250 и находим, что каждая из частей содержит четыре числа. Таким образом, числа таблицы от 000 до 003 будут соответствовать объекту от 004 до 007 - объекту 2 и т.д. Теперь, чтобы установить, какой номер объекта соответствует числу таблицы, следует разделить трехзначное число из таблицы и округлить до ближайшего целого числа.

И наконец, мы должны выбрать в таблице исходную точку и способ прохождения. Исходной точкой может быть верхний левый угол (как в предыдущем примере), нижний правый угол, левый край второй строки или любое другое место. Этот выбор абсолютно произволен. Однако, работая с таблицей, мы должны действовать систематически. Мы могли бы взять три первых знака из каждой пятизначной последовательности, три средних знака, три последних знака или даже первый, второй и четвертый знаки. (Из первой пятизначной последовательности с помощью этих различных процедур получаются, соответственно, числа 100, 009, 097 и 109.) Мы могли бы применить эти процедуры в направлении справа налево, получив 790, 900, 001 и 791. Мы могли бы идти вдоль рядов, рассматривая поочередно каждую следующую цифру и игнорируя разбиение на пятерки (для первого ряда будут получены числа 100, 973, 253, 376 и 520). Мы могли бы иметь дело лишь с каждой третьей группой цифр (например, с 10097, 99019, 04805, 99970). Существует множество самых разнообразных возможностей, и каждая следующая ничуть не хуже предыдущей. Однако как только мы приняли решение о том, или ином способе работы, мы должны систематически следовать ему, чтобы в максимальной степени соблюдать случайность элементов в таблице.

Таким образом, построение простой случайной выборки может оказаться совсем непростым делом. Кроме тех трудностей, которые мы еще будем обсуждать, данный метод требует большого объема технической работы, особенно когда речь идет о широкомасштабных исследованиях. По этой причине процедуры формирования случайной выборки часто видоизменяют, чтобы увеличить их возможности.

Один из таких распространенных вариантов называется систематической случайной выборкой и используется тогда, когда мы хотим исследовать сравнительно большую совокупность, каждый член которой занесен в единый список, такой, как, например, телефонная Книга, список студентов, список зарегистрированных избирателей, индекс или оглавление, повестка дня или список членов какой-либо организации. Процедура выглядит следующим образом.

Подсчитайте (или оцените) количество объектов в совокупности и разделите его на желательное количество объектов в выборке (обсуждается ниже в данной главе). Если обозначить результат через к, то фактически можно сказать, что мы хотим выбрать один из каждых А: объектов или, говоря по-другому, каждый К-й объект. Это можно пояснить на конкретном примере.

Предположим, что из совокупности в 10 000 публичных заявлений, сделанных министерством обороны, мы хотим сформировать выборку размером в 500 документов; предположим также, что мы как свои пять пальцев знаем хронологический список, включающий все 10 000 документов. Чтобы отобрать систематическую случайную выборку:

  1. Мы делим количество объектов в совокупности на желательный размер выборки, чтобы определить число к (в данном случае К = 10 000 : 500 = 20).
  2. С помощью таблицы случайных чисел мы выбираем номер объекта между 1 и к (в нашем примере между 1 и 20) для включения в нашу выборку.
  3. Мы движемся по списку документов, выбирая каждый К-й (двадцатый) объект.

Таким образом, если к равно 20 и мы пользуемся фрагментом таблицы случайных чисел, представленном на 5.2, начиная с верхнего левого угла таблицы, рассматривая двузначные числа (к в данном случае находится между 10 и 99) и используя только те элементы таблицы, которые соответствуют реальным номерам объектов (т.е. только те, которые находятся между 01 и 20), первым выбранным объектом будет 10.

Мы, таким образом, включаем в нашу выборку объекты 10, 30 (10+), 50 (10 + 2), 70 (10 + 3) и т.д., и так вплоть до объекта 9900 (10 + 499). Эту верхнюю границу выборки можно задать в виде общей формулы:

j+(n-l)*k

, где j - первое случайное число, а n - желаемый объем выборки. Таким образом, можно воспользоваться таблицей случайных чисел в сочетании с единым списком для формирования в целях осуществления анализа выборки объемом в 500 документов.

Вы также можете посмотреть следующие статьи: