Зависимость информативностей факторов от объема обучающей выборки
При учете в модели апостериорной информации, содержащейся в очередном объекте обучающей выборки, осуществляется перерасчет значений информативностей всех атрибутов. При этом изменяется количество информации, содержащейся в факте обнаружения у объекта данного атрибута о принадлежности объекта к определенному классу.
В этом процессе пересчета информативностей атрибута их значения "сходятся" к некоторому пределу в соответствии с двумя "сценариями":
1) процесс "последовательных приближений", напоминающего по своей форме "затухающие колебания" (рисунок33);
2) относительно "плавное" возрастание или убывание с небольшими временными отклонениями от этой тенденции (рисунок 34).
Рисунок 33. Зависимость количества информации, содержащегося в атрибуте №1 о принадлежности идентифицируемого объекта (обладающего этим атрибутом) к классу №4 от объема обучающей выборки |
Рисунок 34. Зависимость количества информации, содержащегося в атрибуте №1 о принадлежности идентифицируемого объекта (обладающего этим атрибутом) к классу №10 от объема обучающей выборки |
Как показали численные эксперименты и специально проведенные исследования, других сценариев на практике не наблюдается.
В любом случае при накоплении достаточно большой статистики и сохранении закономерностей предметной области, отражаемых обучающей выборкой, модель стабилизируется в том смысле, что значения информативностей атрибутов перестают существенно изменяться.
Это дает основание утверждать, что при достижении этого состояния добавление новых примеров из обучающей выборки не вносит в модель ничего нового в модель и процесс обучения продолжать нецелесообразно. Это и является одним из критериев для принятия решения об остановке процесса обучения.