Зависимость адекватности семантической
При экспериментальном исследовании свойств предлагаемой математической модели было установлено следующее (рисунок 35).
Рисунок 35. Зависимость адекватности модели от объема обучающей выборки |
1. При малых выборках адекватность модели (внутренняя интегральная и дифференциальная валидность) равна 100% (рисунок 35, диапазон "А"). Это можно объяснить тем, что при малых объемах выборки все выявленные закономерности имеют детерминистский характер.
2. При увеличении объема исследуемой выборки происходит понижение адекватности модели (переход: А®В) и стабилизация ее адекватности на некотором уровне около 95-98% (рисунок 35, диапазон "В").
3. Учет в модели объектов обучающей выборки, отражающих закономерности, качественно отличающиеся от ранее выявленных, приводит к понижению адекватности модели (переход: В®С) и ее стабилизации на уровне от 80 до 90% (рисунок 35, диапазон "С").
4. Внутри диапазона "В" вариабельность объектов обучающей выборки по закономерностям "атрибут®класс" меньше, чем в диапазоне "С", т.е. объекты обучающей выборки диапазона "В" более однородны, чем "С".
Выявленные в модели причинно-следственные закономерности имеют силу для определенного подмножества обучающей выборки, например, отражающих определенный период времени, который соответствует детерминистскому периоду развития предметной области. При качественном изменении закономерностей устаревшие данные могут даже на некоторое время (пока модель не сойдется к новым закономерностям) нарушать ее адекватность.
В многочисленных проведенных практических исследованных модель показала высокую скорость сходимости и высокую адекватность на малых выборках. На больших выборках (т.е. охватывающих несколько детерминистских и бифуркационных состояний предметной области) закономерности с коротким периодом "причина-следствие" переформировываются заново, а с длительным (охватывающим несколько детерминистских и бифуркационных состояний) – автоматически становятся незначимыми и не ухудшают адекватность модели, если процесс апериодический, или сохраняют силу, если они имеют фундаментальный характер.
Выявленные закономерности сходимости модели позволяют сформулировать следующий критерий остановки процесса обучения:
если в модели ничего существенно не меняется при добавлении в обучающую выборку все новых и новых данных, то это означает, что модель адекватно отображает генеральную совокупность, к которой относятся эти данные, и продолжать процесс обучения нецелесообразно.
Здесь уместно рассмотреть ответ на следующий вопрос. Если для формирования образов классов распознавания предъявлено настолько малое количество обучающих объектов, что говорить об обобщении и статистике не приходится, то как это может повлиять на качество формирования модели и ее адекватность? При большой статистике, как показывает опыт, около 95% объектов, формирующих образ некоторого класса оказывается типичными для него, а остальные не типичными. Следовательно, если этот образ формируется на основе буквально одного - двух объектов, то вероятнее всего (т.е. с вероятностью около 95%) они являются типичными, и, следовательно, образ будет сформирован практически таким же, как и при большой статистике, т.е. правильным. При увеличении статистики в этом случае информативности признаков, составляющих образ практически не меняются). Но есть некоторая, сравнительно незначительная вероятность (около 5%), что попадется нетипичная анкета. Тогда при увеличении статистики образ быстро качественно изменится и "быстро сойдется" к адекватному, "нетипичная" анкета будет идентифицирована и ее данные либо будут удалены из модели, либо для нее специально будет создан свой класс.
При незначительной статистике относительный вклад каждого объекта в обобщенный образ некоторого класса, сформированный с его применением, будет достаточно велик. Поэтому в этом случае при распознавании модель уверенно относит объект к этому классу. При большой статистике модель также уверенно относит типичные объекты к классам, сформированным с их применением. Незначительное количество нетипичных объектов могут быть распознаны ошибочно, т.е.не отнесены моделью к тем классам, к которым их отнесли эксперты.
Наличие в системе очень сходных классов также может формально уменьшать валидность модели. Однако фактически эти очень сходные классы целесообразно объединить в один, т.к. по-видимому, их разделение объективно ничем не оправдано, т.е. не соответствует действительности. Для осуществления данной операции в математической модели целесообразно использовать режим: "Получение статистической характеристики обучающей выборки и объединение классов (ручной ремонт обучающей выборки)".