Автоматическое формирование категорий интервалов

Диалоговое окно Границы интервалов позволяет автоматически сформировать категории интервалов на основе выбранного критерия.

Как пользоваться диалоговым окном Границы интервалов:

E   Выберите переменную в списке Отсканированные переменные.

E   Щелкните по кнопке Границы интервалов.

E   Выберите критерии границ интервалов, которые определяют категории интервалов.

E   Щелкните по кнопке Применить.

Рисунок 7-17

Диалоговое окно Границы интервалов

Примечание: Диалоговое окно Границы интервалов недоступно, если отсканировано ноль наблюдений.

Равные интервалы.  Формируются категории интервалов с равной шириной (например,

1–10, 11–20, 21–30 и т.д.) на основе любых двух из следующих трех критериев:

n    Местоположение первой границы. Значение, которое определяет верхнюю границу

самого нижней категории интервала (например, значение 10 указывает на то, что

интервал включает все значения от наименьшего до 10).

n    Количество границ. Количество категорий интервалов равно количеству границ плюс

единица. Например, 9 границ определяют 10 категорий интервалов.

n    Ширина.  Ширина каждого интервала. Например, значение 10 разбило бы возраст в годах на интервалы по 10 лет.

Подготовка данных

Равные процентили (для отсканированных наблюдений). Формируются категории

интервалов с равным числом наблюдений в каждом интервале (с использованием эмпирического алгоритма для процентилей) на основе одного из следующих критериев:

n    Количество  границ.  Количество категорий интервалов равно количеству границ

плюс единица. Например, три границы определяют четыре интервала процентилей

(квартили), каждый из которых содержит по 25% наблюдений.

n    Ширина (%). Ширина каждого интервала, выраженная в процентах от общего числа

наблюдений. Например, значение 3,33 задавало бы три категории интервалов (две границы), каждый из которых содержал бы 33,3% наблюдений.

Если исходная переменная содержит относительно малое число различающихся значений или большое число одинаковых значений, может быть сформировано меньшее интервалов, чем Вы запрашивали. Если значению границы интервала соответствуют несколько идентичных значений, они все попадут в один и тот же интервал, поэтому фактический процент может не быть в точности равным тому, который должен выделяться.

Границы – в среднем значении  и в стандартных  отклонениях  от него (для отсканированных  наблюдений).  Формируются категории интервалов на основе значений

среднего и стандартного отклонения распределения значений переменной.

n    Если Вы не выбрали ни один из интервалов стандартных отклонений, формируются две категории интервалов с границей в среднем значении переменной.

n    Вы можете выбрать любую комбинацию интервалов на основе одного, двух и/или трех стандартных отклонений. Например, если выбрать все три варианта, то это приведет к созданию восьми категорий интервалов: шесть интервалов с шириной в одно стандартное отклонение и два интервала с отклонением более трех стандартных отклонений от среднего значения.

В случае нормального распределения 68% всех наблюдений попадают в интервал плюс/минус одно стандартное отклонение от среднего, 95% – плюс/минус два стандартных отклонения и 99% – плюс/минус три стандартных отклонения. Формирование категорий интервалов, основанных на стандартных отклонениях, может приводить к тому, что некоторые интервалы будут находиться вне диапазона фактических значений переменной и даже вне диапазона возможных значений переменной (например, отрицательные значения величины заработной платы).

Примечание: Расчеты процентилей и стандартных отклонений выполняются на основе отсканированных наблюдений. Если Вы ограничили число сканируемых наблюдений, результирующие интервалы могут не содержать точную долю наблюдений, которую Вы хотели бы видеть в интервалах, в особенности, если файл данных был отсортирован по исходной переменной. Например, если Вы ограничили число сканируемых наблюдений первыми 100 наблюдениями в файле данных, содержащем 1000 наблюдений, который был отсортирован в порядке возрастания значений возраста респондента, то вместо четырех интервалов, каждый из которых содержит по 25% наблюдений, Вы можете обнаружить, что первые три интервала содержат примерно по 3,3% наблюдений каждый, тогда как последний содержит 90% наблюдений.

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий