Сводка для модели

Рисунок 12-5

Вид

Вид — это мгновенная визуальная сводка качества и разнородности ансамбля.

Качество.  Эта диаграмма выводит точность окончательной модели в сравнении с опорной моделью и наивной моделью. Точность представляется в формате “больше значит лучше”; “наилучшая” модель будет иметь наибольшую точность. Для категориальной целевой переменной точность – это просто процент записей, для которых предсказанное значение совпадает с наблюденным значением. Для непрерывной целевой переменной точность – это 1 минус отношение средней абсолютной ошибки предсказания (среднего абсолютных значений разностей предсказанных и наблюденных значений) к диапазону предсказанных значений (разности максимального и минимального предсказанных значений).

Модели

Для ансамблей, созданных с помощью бэггинга, опорная модель – это стандартная модель, построенная по всему обучающему разбиению. Для ансамблей, созданных с помощью бустинга, опорная модель – это первая компонентная модель.

Наивная модель представляет точность в случае, когда модель не была построена, и относит все записи к модальной категории. Наивная модель не вычисляется для непрерывных целевых переменных.

Разнородность.  Эта диаграмма выводит “разброс мнений” среди моделей компонент,

используемых для построения ансамбля, представленный в формате “больше значит более разнородный”. Это есть мера того, насколько сильно предсказания различаются в базовых моделях. Разнородность недоступна для моделей ансамблей, созданных с помощью бустинга, и также не выводится для непрерывных целевых переменных.

Важность предикторов

Рисунок 12-6

Вид Важность предикторов

Обычно при моделировании сосредотачивают внимание на наиболее важных предикторах и исключают или игнорируют наименее важные. Это помогает сделать диаграмма важности предикторов, показывая относительную важность каждого предиктора при оценке модели. Поскольку значения важности являются относительными, сумма этих значений для всех отображаемых предикторов равна 1,0. Важность переменных не связана с точностью

модели. Она лишь связана с важностью каждого предиктора для предсказания, а не с точностью этого предсказания.

Важность предикторов недоступна для всех моделей ансамблей. Набор предикторов может варьироваться по моделям компонентов, но важность может быть вычислена для предикторов, используемых, по крайней мере, в одной модели компонента.

Частота предикторов

Рисунок 12-7

Вид Частота предикторов

Набор предикторов может варьироваться по моделям компонентов в силу выбора метода моделирования или выбора предикторов. Диаграмма частоты предикторов представляет собой точечную диаграмму, показывающую распределение предикторов по моделям компонент в ансамбле. Каждая точка представляет одну или несколько моделей компонент содержащих конкретный предиктор. Предикторы изображаются графически вдоль оси y и сортируются в порядке убывания частоты; таким образом, самый верхний предиктор – это тот, который используется в наибольшем числе моделей компонент, а самый нижний – это тот, который был использован в наименьшем числе моделей. Показываются 10 верхних предикторов.

Предикторы, которые используются наиболее часто, обычно являются наиболее важными. Эта диаграмма бесполезна для методов, в которых набор предикторов не может меняться по моделям компонентов.

Модели

Точность моделей компонентов

Рисунок 12-8

Вид Точность моделей компонентов

Данная диаграмма является точечной диаграммой точности предсказания для моделей компонентов. Каждая точка представляет одну или несколько моделей компонентов с уровнем точности, изображенном графически вдоль оси y. Наведите указатель мыши на любую точку, чтобы получить информацию о соответствующей отдельной модели компонента.

Опорные линии.  Диаграмма показывает кодированные цветом линии для ансамблей, а также опорную модель и наивные модели. Рядом с линией, соответствующей модели, которая будет использована для скоринга, стоит флажок.

Интерактивность. Диаграмма обновится, если изменить правило объединения.

Ансамбли, созданные с помощью бустинга.  Для ансамблей, созданные с помощью бустинга, выводится диаграмма с линиями.

Рисунок 12-9

Вид Точность ансамбля; ансамбль, созданный с помощью бустинга

Модели

Подробности о моделях компонентов

Рисунок 12-10

Вид Подробности о моделях компонентов

Эта таблица выводит информацию о моделях компонентов, представленных построчно. По умолчанию модели компонентов отсортированы в порядке возрастания номеров модели. Строки можно отсортировать в возрастающем или убывающем порядке по значениям любого столбца.

Модель. Номер, показывающий порядок, в котором модели компонентов были созданы.

Точность.  Общая точность, выраженная в виде процента.

Метод.  Метод моделирования.

Предикторы. Число предикторов, использованных в модели компонента.

Размер модели.  Размер модели зависит от метода моделирования: для деревьев это число узлов в дереве; для линейных моделей это число коэффициентов; для нейронных сетей это число синапсисов.

Записи.  Взвешенное число входных записей в обучающей выборке.

Автоматическая подготовка данных

Рисунок 12-11

Вид Автоматическая подготовка данных

Этот вид выводит информацию о том, какие поля были исключены и как преобразованные поля были получены на этапе автоматической подготовки данных (ADP). Для каждого поля, которое было преобразовано или исключено, в таблице перечисляется имя поля, его роль в анализе и действие, совершенное на этапе ADP. Поля сортируются в алфавитном порядке имен полей по возрастанию.

Действие Урезать выбросы, если показано, означает, что те значения непрерывных предикторов, которые лежат вне границ отсечения (определяемых тремя стандартными отклонениями от среднего значения), заменяются значением границы отсечения.

Средство просмотра расщепленных моделей

Средство просмотра расщепленных моделей отображает модели для каждого расщепления и предоставляет сводки по расщепленным моделям.

Модели

Рисунок 12-12

Средство просмотра расщепленных моделей

Расщепление. Заголовок столбца показывает поля, используемые для создания расщепления, и ячейки являются значениями расщепления. Дважды щелкните по любому расщеплению, чтобы открыть средство просмотра моделей с моделью, построенной для этого расщепления.

Точность. Общая точность, выраженная в виде процента.

Размер модели. Размер модели зависит от метода моделирования: для деревьев это число узлов в дереве; для линейных моделей это число коэффициентов; для нейронных сетей это число синапсисов.

Записи.  Взвешенное число входных записей в обучающей выборке.

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий