Процесс применения прогнозной модели к набору данных называется скорингом данных. В IBM® SPSS® Statistics имеются процедуры для построения прогнозных моделей, таких как модели регрессии, кластеризации, деревьев и нейронных сетей. После того как модель построена, спецификации этой модели можно сохранить в файле, который содержит всю информацию, необходимую для реконструирования модели. Затем этот файл модели можно использовать, чтобы сгенерировать предсказанные значения для других наборов данных. (Примечание: Некоторые модели создают XML-файл модели, а некоторые процедуры
– ZIP-файл архива.)
Пример. Отдел прямого маркетинга компании использует результаты пробной рассылки, чтобы приписать значения склонности к совершению покупки субъектам остальной части контактной базы данных, используя при этом различные демографические характеристики, с тем чтобы выявить тех, кто с наибольшей вероятностью откликнется на предложение и совершит покупку.
Скоринг можно рассматривать как преобразование данных. Модель представляет
собой числовые преобразования, применяемые к определенным полям (переменным) – предикторам, заданным в модели, чтобы в результате получить прогнозные значения. В этом отношении процесс скоринга данных для имеющейся модели аналогичен применению какой-либо функции к набору данных, например, функции извлечения квадратного корня.
Процесс скоринга состоит из двух основных этапов:
E Построение модели и ее сохранение в файле. Модель строится с использованием набора данных, для которого известны значения интересующей переменной (часто называемой целевой). Например, если необходимо построить модель, чтобы предсказать, кто откликнется на кампанию прямой рассылки, нужно начать с набора данных, который уже содержит информацию о том, кто откликнулся, а кто нет. Например, он может быть
результатом пробной рассылки небольшой группе клиентов или информацией об откликах для аналогичной кампании, проводившейся ранее.
Примечание: Для некоторых типов моделей целевая переменная отсутствует. Например, модели кластеризации и некоторые модели ближайших соседей не имеют целевой переменной.
E Применение построенной модели к другому набору данных (для которого неизвестны значения целевой переменной), чтобы получить прогнозные значения целевой переменной. Дополнительную информацию см. данная тема Конструктор скоринга на стр. 324.
В приведенной ниже таблице перечислены процедуры, поддерживающие экспорт спецификаций модели в файл модели. В столбце “Модуль” указан дополнительный модуль, в который включена процедура.
|
Имя процедуры |
Имя команды |
Модуль |
|
Дискриминантный анализ |
DISCRIMINANT |
Statistics Base |
|
Линейная регрессия |
REGRESSION |
Statistics Base |
|
Автоматизированные линейные модели |
LINEAR |
Statistics Base |
|
Двухэтапный кластерный анализ |
TWOSTEP CLUSTER |
Statistics Base |
|
Ближайшие соседи |
KNN |
Statistics Base |
|
Регрессия Кокса |
COXREG |
Advanced Statistics |
|
Обобщенные линейные модели |
GENLIN |
Advanced Statistics |
|
Обобщенные уравнения оценки |
GENLIN |
Advanced Statistics |
|
Обобщенные линейные смешанные модели |
GENLINMIXED |
Advanced Statistics |
|
Общая линейная модель для сложных выборок |
CSGLM |
Complex Samples |
|
Логистическая регрессия для сложных выборок |
CSLOGISTIC |
Complex Samples |
|
Порядковая регрессия для сложных выборок |
CSORDINAL |
Complex Samples |
|
Регрессия Кокса для сложных выборок |
CSCOXREG |
Complex Samples |
|
Логистическая регрессия |
LOGISTIC REGRESSION |
Регрессия |
|
Мультиномиальная логистическая регрессия |
NOMREG |
Регрессия |
|
Decision Tree |
TREE |
Decision Tree |
|
Многослойный перцептрон |
MLP |
Neural Networks |
|
Радиальная базисная функция |
RBF |
Neural Networks |
|
Выявление аномалий |
DETECTANOMALY |
Data Preparation |
|
Наивный Байес |
NAIVEBAYES |
SPSS Statistics Server |
Источник: Руководство пользователя по базовой системе Statistics 20

May 3rd, 2012
admin
Опубликовано в рубрике