Чтобы выполнить скоринг активного набора данных, этот набор данных должен содержать поля (переменные), которые соответствуют всем предикторам в модели. Если модель, кроме того, содержит поля расщепления, то набор данных также должен содержать поля, которые соответствуют всем полям расщепления в модели.
n По умолчанию любые поля в активном наборе данных, которые имеют те же имена и типы, что и поля в модели, сопоставляются автоматически.
n Используйте раскрывающийся список для сопоставления полей в наборе данных и модели. Для сопоставления полей необходимо, чтобы тип данных для каждого поля был одним и тем же как в модели, так и в наборе данных.
n Нельзя продолжить работу Конструктора скоринга для активного набора данных, если все предикторы (а также поля расщепления, если они есть) в модели не сопоставлены с полям в активном наборе данных.
Рисунок 15-2
Конструктор скоринга: Сопоставление полей модели

Поля набора данных. Этот раскрывающийся список содержит имена всех полей в активном наборе данных. Поля, которые не совпадают по типу данных с соответствующим полем в модели, не могут быть выбраны.
Поля модели. Это поля, использованные в модели.
Скоринг данных с использованием прогнозных моделей
Роль. Может быть выведена одна из перечисленных ниже ролей:
n Предиктор. Это поле использовано в модели в качестве предиктора. То есть значения
предикторов используются для предсказания значений целевой переменной.
n Расщепление. Значения полей расщепления используются, чтобы задать подгруппы, к каждой из которых скоринг применяется отдельно от остальных подгрупп. Для каждой уникальной комбинации значений полей расщепления формируется отдельная подгруппа. (Примечание: расщепления допускаются только для некоторых моделей.)
n ID записи. Идентификатор записи (наблюдения).
Мера. Шкала измерений для модели, как она задана в модели. Для моделей, в которых шкала измерений может влиять на значения скоринга, используется шкала измерений, как она задана в модели, а не как она задана в активном наборе данных. За дополнительной информацией о типе шкалы измерений обращайтесь к Шкала измерения переменной.
Тип. Тип данных, как он задан в модели. Тип данных в активном наборе данных должен соответствовать типу данных в модели. Тип данных может быть одним из следующих:
n Текстовый. Поля с текстовым типом данных в активном наборе данных сопоставляются с полями с текстовым типом данных в модели.
n Числовой. Числовые поля с форматами вывода, отличными от форматов дат и времени,
в активном наборе данных сопоставляются с полями с числовым типом данных в
модели. Это включает форматы F (числовой), Доллар, Точка, Запятая, E (научная запись), а также любой пользовательский денежный формат. Поля с форматами Wkday (день недели) и Month (месяц года) также считаются числовыми, а не датами. Для некоторых типов моделей поля дат и времени в активном наборе данных также считаются сопоставимыми с полями с числовым типом данных в модели.
n Дата. Числовые поля с форматами вывода, которые включает дату, но не время, в
активном наборе данных сопоставляются с полями с типом дат в модели. Это включает
Date (dd-mm-yyyy), Adate (mm/dd/yyyy), Edate (dd.mm.yyyy), Sdate (yyyy/mm/dd) и
Jdate (dddyyyy).
n Время. Числовые поля с форматами вывода, которые включает время, но не дату, в активном наборе данных сопоставляются с полями с типом данных времени в модели. Это включает Time (hh:mm:ss) и Dtime (dd hh:mm:ss).
n Метка даты/времени. Числовые поля с форматом вывода, который включает как дату, так и время, в активном наборе данных сопоставляются с полями с этим типом данных в модели. Это соответствует формату Datetime (dd-mm-yyyy hh:mm:ss) в активном наборе данных.
Примечание: Кроме имени поля и его типа, необходимо удостовериться в том, что реальные значения данных в наборе данных, для которого выполняется скоринг, записаны так же, как и значения данных в наборе данных, использованном для построения модели. Например, если модель была построена с использованием поля Income, в котором доход разбит на четыре категории, а поле IncomeCategory в активном наборе данных имеет шесть различных категорий дохода, то эти поля не соответствуют друг другу и полученным значениям скоринга доверять нельзя.
Пропущенные значения
Эта группа параметров управляет обработкой пропущенных значений, обнаруженных в процессе скоринга в предикторных переменных, заданных в модели. Обработка пропущенных значений в контексте скоринга означает следующее:
n Предиктор не содержит значения. Для числовых полей (переменных) это означает системное пропущенное значение. Для текстовых полей это означает нулевую строку.
n Значение было определено как пользовательское пропущенное в модели для данного предиктора. Значения, определенные как пользовательские пропущенные в активном наборе данных, но не в модели, не интерпретируются как пропущенные значения в процессе скоринга.
n Предиктор является категориальным и это значение не является одним из значений категорий, определенных в модели.
Использовать замену значений.Делается попытка замены значения при обнаружении пропущенных значений в процессе скоринга. Метод подбора значения для замены пропущенного зависит от типа прогностической модели.
n Модели линейной регрессии и дискриминантного анализа. Для независимых
переменных в моделях линейной регрессии и дискриминантного анализа, если был
выбран вариант замены пропущенных значений средним значением при построении и сохранении модели, то это среднее значение используется вместо пропущенных значений при скоринге. Если средне значение недоступно, то результатом будет системное пропущенное значение.
n Модели деревьев решений. В моделях CHAID и Исчерпывающий CHAID
используется наибольший узел-сын в случае отсутствия значения расщепляющей переменной. Наибольший узел-сын – это узел, содержащий наибольшую подвыборку среди узлов-сыновей при использовании обучающей выборки. В моделях C&RT и QUEST в первую очередь используются переменные-суррогаты. (Расщепление по суррогатным переменным – это расщепление, максимально близкое к расщеплению, которое обеспечивают исходные предикторы.) если суррогатные расщепления не заданы или суррогатные переменные содержат пропущенные значения, то используется наибольший узел-сын.
n Модели логистической регрессии. В отношении ковариат в моделях логистической
регрессии, если среднее значение предиктора было включено в сохраненную модель,
то это среднее значение используется для замены пропущенных значений во время скоринга. Если предиктор является категориальным (например, фактором в модели логистической регрессии) или если среднее значение недоступно, то результатом будет системное пропущенное значение.
Использовать системные пропущенные. При скоринге наблюдения с пропущенным значением в качестве результата скоринга возвращается системно пропущенное значение.
Источник: Руководство пользователя по базовой системе Statistics 20

April 23rd, 2012
admin
Опубликовано в рубрике