Внутренняя дифференциальная и интегральная валидность
Под внутренней валидностью понимается способность модели верно идентифицировать объекты, входящие в обучающую выборку.
Для измерения адекватности модели необходимо выполнить следующие действия:
1. Скопировать обучающую выборку в распознаваемую (во 1-м режиме 2-й подсистемы нажав клавишу F5).
2. Выполнить пакетное распознавание (во 2-м режиме 4-й подсистемы, задав 1-й критерий сходства) (рисунок 161).
3. Измерить адекватность модели (во 2-м режиме 6-й подсистемы) (рисунки 162 и 163).
Рисунок 161. Выход на режим пакетного распознавания |
Рисунок 162. Выход на режим измерения адекватности модели |
Рисунок 163. Экранная форма управления измерением адекватности модели и отображения результатов |
Эта форма может прокучиваться вправо-влево. В верхней части формы приведены показатели интегральной валидности (средневзвешенные по всей обучающей выборке), а в самой таблице – дифференциальной валидности, т.е. в разрезе по классам.
Кроме того, результаты измерения адекватности модели выводятся в форме файлов с именами ValidSys.txt (рисунок 164) и ValAnkSt.txt (рисунок165) стандарта "TXT-текст DOS" в поддиректории TXT. Первый файл имеет вид:
Рисунок 164. Выходная форма ValidSys.txt с результатами измерения адекватности модели и отображения результатов |
Рассмотрим, что означают графы этой выходной формы.
"Всего логических анкет" – это количество анкет (примеров текстов) в обучающей выборке, на основе которых формировался образ данного класса.
"Идентифицировано верно" – это количество анкет обучающей выборки, которые идентифицированы как классы, к которым они действительно относятся.
"Идентифицировано ошибочно"
– это количество анкет обучающей выборки, которые идентифицированы как классы, к которым они в действительности не относятся (ошибка идентификации).
"Неидентифицировано верно" – это количество анкет обучающей выборки, которые неидентифицированы как классы, к которым они действительно не относятся.
"Неидентифицировано ошибочно"
– это количество анкет обучающей выборки, которые неидентифицированы как классы, к которым они в действительности относятся (ошибка неидентфикации).
В правой части формы приведены те же показатели, но в процентом выражении:
– для анкет, идентифицированных верно и неидентифицированных ошибочно за 100% принимается количество логических анкет обучающей выборки по данному классу;
– для анкет, идентифицированных ошибочно и неидентифицированных верно за 100% принимается суммарное количество логических анкет обучающей выборки за вычетом логических анкет по данному классу.
|
Рисунок 165. Фрагмент выходной формы ValAnkSt.txt с результатами измерения адекватности модели и отображения результатов |