Скоринг данных с использованием прогнозных моделей Глава

Процесс применения прогнозной модели к набору данных называется скорингом данных. В IBM® SPSS® Statistics имеются процедуры для построения прогнозных моделей, таких как модели регрессии, кластеризации, деревьев и нейронных сетей. После того как модель построена, спецификации этой модели можно сохранить в файле, который содержит всю информацию, необходимую для реконструирования модели. Затем этот файл модели можно использовать, чтобы сгенерировать предсказанные значения для других наборов данных. (Примечание: Некоторые модели создают XML-файл модели, а некоторые процедуры

– ZIP-файл архива.)

Пример. Отдел прямого маркетинга компании использует результаты пробной рассылки, чтобы приписать значения склонности к совершению покупки субъектам остальной части контактной базы данных, используя при этом различные демографические характеристики, с тем чтобы выявить тех, кто с наибольшей вероятностью откликнется на предложение и совершит покупку.

Скоринг можно рассматривать как преобразование данных. Модель представляет

собой числовые преобразования, применяемые к определенным полям (переменным) – предикторам, заданным в модели, чтобы в результате получить прогнозные значения. В этом отношении процесс скоринга данных для имеющейся модели аналогичен применению какой-либо функции к набору данных, например, функции извлечения квадратного корня.

Процесс скоринга состоит из двух основных этапов:

E   Построение модели и ее сохранение в файле. Модель строится с использованием набора данных, для которого известны значения интересующей переменной (часто называемой целевой). Например, если необходимо построить модель, чтобы предсказать, кто откликнется на кампанию прямой рассылки, нужно начать с набора данных, который уже содержит информацию о том, кто откликнулся, а кто нет.  Например, он может быть

результатом пробной рассылки небольшой группе клиентов или информацией об откликах для аналогичной кампании, проводившейся ранее.

Примечание: Для некоторых типов моделей целевая переменная отсутствует. Например, модели кластеризации и некоторые модели ближайших соседей не имеют целевой переменной.

E   Применение построенной модели к другому набору данных (для которого неизвестны значения целевой переменной), чтобы получить прогнозные значения целевой переменной. Дополнительную информацию см. данная тема Конструктор скоринга на стр. 324.

В приведенной ниже таблице перечислены процедуры, поддерживающие экспорт спецификаций модели в файл модели. В столбце “Модуль” указан дополнительный модуль, в который включена процедура.

Имя процедуры

Имя команды

Модуль

Дискриминантный анализ

DISCRIMINANT

Statistics Base

Линейная регрессия

REGRESSION

Statistics Base

Автоматизированные линейные модели

LINEAR

Statistics Base

Двухэтапный кластерный анализ

TWOSTEP CLUSTER

Statistics Base

Ближайшие соседи

KNN

Statistics Base

Регрессия Кокса

COXREG

Advanced Statistics

Обобщенные линейные модели

GENLIN

Advanced Statistics

Обобщенные уравнения оценки

GENLIN

Advanced Statistics

Обобщенные линейные смешанные модели

GENLINMIXED

Advanced Statistics

Общая линейная модель для сложных выборок

CSGLM

Complex Samples

Логистическая регрессия для сложных

выборок

CSLOGISTIC

Complex Samples

Порядковая регрессия для сложных

выборок

CSORDINAL

Complex Samples

Регрессия Кокса для сложных выборок

CSCOXREG

Complex Samples

Логистическая регрессия

LOGISTIC REGRESSION

Регрессия

Мультиномиальная логистическая

регрессия

NOMREG

Регрессия

Decision Tree

TREE

Decision Tree

Многослойный перцептрон

MLP

Neural Networks

Радиальная базисная функция

RBF

Neural Networks

Выявление аномалий

DETECTANOMALY

Data Preparation

Наивный Байес

NAIVEBAYES

SPSS Statistics

Server

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий