Сопоставление полей модели и полей набора данных

Чтобы выполнить скоринг активного набора данных, этот набор данных должен содержать поля (переменные), которые соответствуют всем предикторам в модели. Если модель, кроме того, содержит поля расщепления, то набор данных также должен содержать поля, которые соответствуют всем полям расщепления в модели.

n    По умолчанию любые поля в активном наборе данных, которые имеют те же имена и типы, что и поля в модели, сопоставляются автоматически.

n    Используйте раскрывающийся список для сопоставления полей в наборе данных и модели. Для сопоставления полей необходимо, чтобы тип данных для каждого поля был одним и тем же как в модели, так и в наборе данных.

n    Нельзя продолжить работу Конструктора скоринга для активного набора данных, если все предикторы (а также поля расщепления, если они есть) в модели не сопоставлены с полям в активном наборе данных.

Рисунок 15-2

Конструктор скоринга: Сопоставление полей модели

Поля набора данных.  Этот раскрывающийся список содержит имена всех полей в активном наборе данных. Поля, которые не совпадают по типу данных с соответствующим полем в модели, не могут быть выбраны.

Поля модели.  Это поля, использованные в модели.

Скоринг данных с использованием прогнозных моделей

Роль. Может быть выведена одна из перечисленных ниже ролей:

n    Предиктор. Это поле использовано в модели в качестве предиктора. То есть значения

предикторов используются для предсказания значений целевой переменной.

n    Расщепление.  Значения полей расщепления используются, чтобы задать подгруппы, к каждой из которых скоринг применяется отдельно от остальных подгрупп. Для каждой уникальной комбинации значений полей расщепления формируется отдельная подгруппа. (Примечание: расщепления допускаются только для некоторых моделей.)

n    ID записи.  Идентификатор записи (наблюдения).

Мера.  Шкала измерений для модели, как она задана в модели. Для моделей, в которых шкала измерений может влиять на значения скоринга, используется шкала измерений, как она задана в модели, а не как она задана в активном наборе данных. За дополнительной информацией о типе шкалы измерений обращайтесь к Шкала измерения переменной.

Тип. Тип данных, как он задан в модели. Тип данных в активном наборе данных должен соответствовать типу данных в модели. Тип данных может быть одним из следующих:

n    Текстовый.  Поля с текстовым типом данных в активном наборе данных сопоставляются с полями с текстовым типом данных в модели.

n    Числовой. Числовые поля с форматами вывода, отличными от форматов дат и времени,

в активном наборе данных сопоставляются с полями с числовым типом данных в

модели. Это включает форматы F (числовой), Доллар, Точка, Запятая, E (научная запись), а также любой пользовательский денежный формат. Поля с форматами Wkday (день недели) и Month (месяц года) также считаются числовыми, а не датами. Для некоторых типов моделей поля дат и времени в активном наборе данных также считаются сопоставимыми с полями с числовым типом данных в модели.

n    Дата. Числовые поля с форматами вывода, которые включает дату, но не время, в

активном наборе данных сопоставляются с полями с типом дат в модели. Это включает

Date (dd-mm-yyyy), Adate (mm/dd/yyyy), Edate (dd.mm.yyyy), Sdate (yyyy/mm/dd) и

Jdate (dddyyyy).

n    Время.  Числовые поля с форматами вывода, которые включает время, но не дату, в активном наборе данных сопоставляются с полями с типом данных времени в модели. Это включает Time (hh:mm:ss) и Dtime (dd hh:mm:ss).

n    Метка даты/времени.  Числовые поля с форматом вывода, который включает как дату, так и время, в активном наборе данных сопоставляются с полями с этим типом данных в модели. Это соответствует формату Datetime (dd-mm-yyyy hh:mm:ss) в активном наборе данных.

Примечание: Кроме имени поля и его типа, необходимо удостовериться в том, что реальные значения данных в наборе данных, для которого выполняется скоринг, записаны так же, как и значения данных в наборе данных, использованном для построения модели. Например, если модель была построена с использованием поля Income, в котором доход разбит на четыре категории, а поле IncomeCategory в активном наборе данных имеет шесть различных категорий дохода, то эти поля не соответствуют друг другу и полученным значениям скоринга доверять нельзя.

Пропущенные значения

Эта группа параметров управляет обработкой пропущенных значений, обнаруженных в процессе скоринга в предикторных переменных, заданных в модели. Обработка пропущенных значений в контексте скоринга означает следующее:

n    Предиктор не содержит значения. Для числовых полей (переменных) это означает системное пропущенное значение. Для текстовых полей это означает нулевую строку.

n    Значение было определено как пользовательское пропущенное в модели для данного предиктора. Значения, определенные как пользовательские пропущенные в активном наборе данных, но не в модели, не интерпретируются как пропущенные значения в процессе скоринга.

n    Предиктор является категориальным и это значение не является одним из значений категорий, определенных в модели.

Использовать  замену значений.Делается попытка замены значения при обнаружении пропущенных значений в процессе скоринга. Метод подбора значения для замены пропущенного зависит от типа прогностической модели.

n    Модели линейной регрессии и дискриминантного анализа. Для независимых

переменных в моделях линейной регрессии и дискриминантного анализа, если был

выбран вариант замены пропущенных значений средним значением при построении и сохранении модели, то это среднее значение используется вместо пропущенных значений при скоринге. Если средне значение недоступно, то результатом будет системное пропущенное значение.

n    Модели деревьев решений.  В моделях CHAID и Исчерпывающий CHAID

используется наибольший узел-сын в случае отсутствия значения расщепляющей переменной. Наибольший узел-сын – это узел, содержащий наибольшую подвыборку среди узлов-сыновей при использовании обучающей выборки. В моделях C&RT и QUEST в первую очередь используются переменные-суррогаты. (Расщепление по суррогатным переменным – это расщепление, максимально близкое к расщеплению, которое обеспечивают исходные предикторы.) если суррогатные расщепления не заданы или суррогатные переменные содержат пропущенные значения, то используется наибольший узел-сын.

n    Модели логистической регрессии. В отношении ковариат в моделях логистической

регрессии, если среднее значение предиктора было включено в сохраненную модель,

то это среднее значение используется для замены пропущенных значений во время скоринга. Если предиктор является категориальным (например, фактором в модели логистической регрессии) или если среднее значение недоступно, то результатом будет системное пропущенное значение.

Использовать  системные пропущенные.  При скоринге наблюдения с пропущенным значением в качестве результата скоринга возвращается системно пропущенное значение.

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий