Измерения для порядковых переменных
Когда мы имеем дело с данными порядкового уровня, у нас несколько больше информации, поскольку коды представляют не только категоризацию, но и относительные позиции, или ранжирование. Выбор способа измерения средней тенденции и дисперсии должен как отражать этот факт, так и использовать его возможности.
Наиболее подходящий способ измерения средней тенденции для порядковых данных - медиана. Медиана - это просто значение среднего признака в упорядоченном ряду, признака, и после которого находится равное количество признаков. Вычисление медианы, таким образом, требует лишь того, чтобы отсчитать с обоих концов частотного распределения равное количество признаков, до тех пор пока не доберемся до срединного, и определить затем его значение.
Там, где имеется нечетное количество признаков, можно определить единственный срединный признак (например, для 99 признаков 50-я от любого конца частотного распределения единица будет иметь 49 единиц как до, так и после себя). Значение этого признака и будет медианой. Если же N (количество единиц) - четное число, появятся две срединных единицы (например, для 100 единиц 50-я и 51-я вместе составят середину распределения). Если обе эти единицы имеют одно и то же значение, оно и будет медианой. Если у них разные значения, медианой будет среднее арифметическое между ними. Поясним на примере. Давайте рассмотрим распределение уровней образования по трем массивам данных.
В первом массиве выделяется один срединный случай (50-й с обоих концов), определяется его значение и выясняется, таким образом, что медианный уровень образования - или <законченное среднее>. Во втором массиве выделяется два срединных случая (50-й и 51-й с обоих концов), определяется, что каждый принимает одно и то е значение и выясняется, что медиана - опять 3. В третьем же массиве срединные случаи включают две категории - <незаконченное среднее> и <законченное среднее> Здесь медианой является среднее арифметическое между этими величинами, т. е. (2+3)/2 = 2,5. Поскольку дробные значения не имеют смысла в порядковом измерении эта цифра просто говорит нам, что середина распределения лежит примерно между 2 и 3.
Любой из нескольких способов измерения дисперсии для порядковых переменных, называемый квантильным рангом, показывает, насколько плотно различные значения группируются вокруг медианы, или опять насколько типична или репрезентативна медиана для распределения в целом. Квантиль - это мера положения внутри распределения. Например, персентиль делит совокупность на 100 равных частей так, что первый персентиль - это такая точка или значение в этой совокупности (считая от меньшего значения вверх), ниже которой находится 1% всех случаев, второй персентиль - такая точка или значение, ниже которой находятся 2% всех признаков, и т. д. Или, используя более знакомый пример, будущий студент колледжа, достигший 85-го персентиля в тесте на эрудицию, дошел до уровня более высокого, чем уровни 85% всех, кто проходил тест.
Точно так же дециль делит совокупность на десятки (например, третий дециль - это точка, ниже которой находятся 30% случаев), квинтиль - на пятые доли, квартиль - на четвертые. Любой из них может быть использован для определения дисперсии вокруг медианы, хотя децильные и квинтильные ранги наиболее часто встречаются в литературе.
Давайте проиллюстрируем эту процедуру на примере квинтильных рангов. Квинтильный ранг (а) определяется следующим образом:
q=q4-qi,
где q4 - четвертый квинтиль (значение, ниже которого находится 4/5, или 80% всех признаков);
qi - первый квинтиль (значение, ниже которого находится 1/5 или 20% всех признаков).
Чем меньше степень разброса величин между этими двумя точками совокупности, тем плотнее сгруппированы случаи вокруг медианы и тем точнее представляет медиана всю совокупность.
Одна из трудностей интерпретации квинтильных рангов состоит в том, что они чрезвычайно чувствительны к изменениям в количестве градаций самой переменной. Чем больше градаций, тем вероятнее большой разброс. Поэтому квинтильные ранги не всегда поддаются интерпретации в случаях сравнений переменных с разным количеством градаций. Для переменных же с примерно равным количеством градаций для построчного или постолбцового сравнения значений одной переменной или для какого-либо абсолютного измерения разброса вокруг медианы они вполне подходят.
Вы также можете посмотреть следующие статьи:
- Измерения для интервальных переменных
- Связь и значимость для порядковых переменных
- Измерение средней тенденции и дисперсии
- Измерения для номинальных переменных
- Шкалирование
- Источники сводных данных
- Квазиэкспериментальные программы
- Законодательная основа социальной политики
- Анализ данных
- Связи статистической значимости