Интеллектуальные информационные системы


Зависимость адекватности семантической - часть 2


Выявленные закономерности сходимости модели позволяют сформулировать следующий критерий остановки процесса обучения:

если в модели ничего существенно не меняется при добавлении в обучающую выборку все новых и новых данных, то это означает, что модель адекватно отображает генеральную совокупность, к которой относятся эти данные, и продолжать процесс обучения нецелесообразно.

Здесь уместно рассмотреть ответ на следующий вопрос. Если для формирования образов классов распознавания предъявлено настолько малое количество обучающих объектов, что говорить об обобщении и статистике не приходится, то как это может повлиять на качество формирования модели и ее адекватность?  При большой статистике, как показывает опыт, около 95% объектов, формирующих образ некоторого класса оказывается типичными для него, а остальные не типичными. Следовательно, если этот образ формируется на основе буквально одного - двух объектов, то вероятнее всего (т.е. с вероятностью около 95%) они являются типичными, и, следовательно, образ будет сформирован практически таким же, как и при большой статистике, т.е. правильным. При увеличении статистики в этом случае информативности признаков, составляющих образ практически не меняются). Но есть некоторая, сравнительно незначительная вероятность (около 5%), что попадется нетипичная анкета. Тогда при увеличении статистики образ быстро качественно изменится и "быстро сойдется" к адекватному, "нетипичная" анкета будет идентифицирована и ее данные либо будут удалены из модели, либо для нее специально будет создан свой класс.

При незначительной статистике относительный вклад каждого объекта в обобщенный образ некоторого класса, сформированный с его применением, будет достаточно велик. Поэтому в этом случае при распознавании модель уверенно относит объект к этому классу. При большой статистике модель также уверенно относит типичные объекты к классам, сформированным с их применением. Незначительное количество нетипичных объектов могут быть распознаны ошибочно, т.е.не отнесены моделью к тем классам, к которым их отнесли эксперты.

Наличие в системе очень сходных классов также может формально уменьшать валидность модели. Однако фактически эти очень сходные классы целесообразно объединить в один, т.к. по-видимому, их разделение объективно ничем не оправдано, т.е. не соответствует действительности. Для осуществления данной операции в математической модели целесообразно использовать режим: "Получение статистической характеристики обучающей выборки и объединение классов (ручной ремонт обучающей выборки)".




Начало  Назад  Вперед