Интеллектуальные информационные системы

         

Внутренняя дифференциальная и интегральная валидность


Под внутренней валидностью понимается способность модели верно идентифицировать объекты, входящие в обучающую выборку.

Для измерения адекватности модели необходимо выполнить следующие действия:

1. Скопировать обучающую выборку в распознаваемую (во 1-м режиме 2-й подсистемы нажав клавишу F5).

2. Выполнить пакетное распознавание (во 2-м режиме 4-й подсистемы, задав 1-й критерий сходства) (рисунок 161).

3. Измерить адекватность модели (во 2-м режиме 6-й подсистемы) (рисунки 162 и 163).

Рисунок 161. Выход на режим пакетного распознавания



Рисунок 162. Выход на режим измерения адекватности модели

Рисунок 163. Экранная форма управления измерением адекватности модели и отображения результатов

Эта форма может прокучиваться вправо-влево. В верхней части формы приведены показатели интегральной валидности (средневзвешенные по всей обучающей выборке), а в самой таблице – дифференциальной валидности, т.е. в разрезе по классам.

Кроме того, результаты измерения адекватности модели выводятся в форме файлов с именами ValidSys.txt (рисунок 164) и ValAnkSt.txt (рисунок165) стандарта "TXT-текст DOS" в поддиректории TXT. Первый файл имеет вид:

Рисунок 164. Выходная форма ValidSys.txt с результатами измерения

адекватности модели и отображения результатов

Рассмотрим, что означают графы этой выходной формы.

"Всего логических анкет" – это количество анкет (примеров текстов) в обучающей выборке, на основе которых формировался образ данного класса.

"Идентифицировано верно" – это количество анкет обучающей выборки, которые идентифицированы как классы, к которым они действительно относятся.

"Идентифицировано ошибочно"

– это количество анкет обучающей выборки, которые идентифицированы как классы, к которым они в действительности не относятся (ошибка идентификации).

"Неидентифицировано верно" – это количество анкет обучающей выборки, которые неидентифицированы как классы, к которым они действительно не относятся.


"Неидентифицировано ошибочно"

– это количество анкет обучающей выборки, которые неидентифицированы как классы, к которым они в действительности относятся (ошибка неидентфикации).

В правой части формы приведены те же показатели, но в процентом выражении:

– для анкет, идентифицированных верно и неидентифицированных ошибочно за 100% принимается количество логических анкет обучающей выборки по данному классу;

– для анкет, идентифицированных ошибочно и неидентифицированных верно за 100% принимается суммарное количество логических анкет обучающей выборки за вычетом логических анкет по данному классу.



Рисунок 165. Фрагмент выходной формы ValAnkSt.txt с результатами измерения адекватности модели и отображения результатов

В данной форме приведены коды анкет обучающей выборки, которые были учтены в каждой графе предыдущей формы по каждому классу.


Содержание раздела