Агрегирование данных

Процедура Агрегировать данные позволяет преобразовать группы наблюдений в наблюдения, содержащие агрегированную информацию по соответствующей группе, и создавать новый — агрегированный — файл данных или создавать новые переменные в активном наборе данных, содержащие агрегированную информацию. Наблюдения

агрегируются на основе значений нуля или большего числа группирующих переменных. Если группирующие переменные не заданы, то весь набор данных представляет собой единую группу для агрегирования.

n    Если вы создаете новый агрегированный файл данных, то новый файл будет содержать по одному наблюдению на каждую группу, определяемую группирующей переменной. Например, если имеется одна группирующая переменная с двумя значениями, то новый файл данных будет содержать только два наблюдения. Если не заданы группирующие переменные, то новый файл данных будет содержать одно наблюдение.

n    Если агрегированные переменные добавляются в активный набор данных, сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных. Например, если имеется единственная группирующая переменная gender, то все мужчины будут иметь одинаковое значение новой агрегированной переменной, представляющей средний возраст. Если не задано группирующих переменных, то все наблюдения будут получать одно и то же значение для новой агрегируемой переменной, представляющей средний возраст.

Работа с файлами

Рисунок 9-7

Диалоговое окно Агрегировать данные

Группирующие переменные. Наблюдения группируются на основе значений группирующих переменных. Каждая уникальная комбинация значений группирующих переменных определяет группу. Если создается новый, агрегированный файл данных, все группирующие переменные сохраняются в новом файле под своими прежними именами и с информацией из словаря данных. Группирующая переменная, если задана, может быть числовой или текстовой.

Агрегируемые переменные. Для создания новых переменных используются исходные переменные с функциями агрегирования. За именем агрегированной переменной идет необязательная метка переменной, имя агрегирующей функции и имя исходной переменной в скобках.

Можно изменять имена агрегируемых переменных, заданные по умолчанию, добавлять описательные метки переменных, а также изменять функции, используемые для расчета агрегированных значений. Можно также создать переменную, содержащую число наблюдений, попавших в каждую группу при агрегировании.

Как агрегировать файл данных

E   Выберите в меню:

Данные > Агрегировать данные…

E   Можно задать группирующие переменные, определяющие, как наблюдений группируются при агрегировании данных. Если группирующие переменные не заданы, то весь набор данных является единой группой для агрегирования.

E   Выберите одну или несколько агрегируемых переменных.

E   Выберите агрегирующую функцию для каждой агрегируемой переменной.

Сохранение агрегированных результатов

Вы можете добавить агрегированные переменные в активный набор данных или создать новый, агрегированный файл данных.

n    Добавить агрегированные переменные в активный набор данных. В активный набор

данных добавляются новые переменные, основанные на функциях агрегирования. Сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных.

n    Создать новый набор данных, содержащие только агрегированные  переменные.

Сохраняет агрегированные данные в новом наборе данных в текущем сеансе работы. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

n    Записать новый файл данных, содержащий только агрегированные переменные.

Сохраняет агрегированные данные во внешнем файле данных. Файл включает

группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

Параметры сортировки для больших файлов данных

Для очень больших файлов данных более эффективным может быть агрегирование предварительно отсортированных данных.

Данные уже отсортированы по группирующей(им) переменной(ым). Если данные уже отсортированы по значениям группирующих переменных, то этот параметр позволяет процедуре выполняться быстрее и использовать меньше памяти. Пользуйтесь этим параметром с осторожностью.

n    Данные должны быть отсортированы по значениям группирующих переменных в том же порядке, в котором группирующие переменные указаны в процедуре Агрегировать данные.

n    Если Вы добавляете переменные в активный набор данных, выбирайте этот параметр, только если данные отсортированы в порядке возрастания значений группирующих переменных.

Работа с файлами

Отсортировать данные перед агрегированием. В очень редких случаях с большими

файлами данных вам, возможно, потребуется отсортировать файл данных по значениям группирующих переменных до агрегирования.  Использовать этот параметр не рекомендуется, пока у вас не возникнут проблемы с памятью или быстродействием.

: Агрегирующая функция

В этом диалоговом окне задается функция, используемая для вычисления агрегированных значений данных для выбранных переменных из списка Агрегируемые переменные в диалоговом окне Агрегировать данные. Агрегирующие функции включают:

n    Подытоживающие функции для числовых переменных, включая среднее, медиану,

стандартное отклонение и сумму.

n    Число наблюдений, включая не взвешенные, взвешенные, не пропущенные и пропущенные.

n    Процент или доля значений больше или меньше указанного значения.

n    Процент или доля значений внутри или вне указанного диапазона значений

Рисунок 9-8

Диалоговое окно Агрегировать данные: Агрегирующая функция

: Имя и метка переменной

При агрегировании данных имена агрегированных переменных в новом файле данных задаются по умолчанию. Диалоговое окно Агрегировать данные: Имя и метка переменной дает возможность изменить имя и метку переменной, выбранной в списке Агрегируемые переменные. Дополнительную информацию см. данная тема Имена переменных в Данная глава 5 на стр. 79.

Рисунок 9-9

Диалоговое окно Агрегировать данные: Имя и метка переменной

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий