Взаимосвязь системной меры целесообразности
Статистика c2 представляет собой сумму вероятностей совместного наблюдения признаков и объектов по всей корреляционной матрице или определенным ее подматрицам (т.е. сумму относительных отклонений частот совместного наблюдения признаков и объектов от среднего):
(3. 57) |
где:
– Nij – фактическое количество встреч i-го признака у объектов j-го класса;
– t – ожидаемое количество встреч i-го признака у объектов j-го класса.
(3. 58) |
|
Отметим, что статистика c2 математически связана с количеством информации в системе признаков о классе распознавания, в соответствии с системным обобщением формулы Харкевича для плотности информации(3.28)
(3. 59) |
а именно из (3.58) и (3.59) получаем:
(3. 60) |
Из (3.60) очевидно:
(3. 61) |
Сравнивая выражения (3.57) и (3.61), видим, что числитель в выражении (3.57) под знаком суммы отличается от выражения (3.61) только тем, что в выражении (3.61) вместо значений Nij и t взяты их логарифмы. Так как логарифм является монотонно возрастающей функцией аргумента, то введение логарифма не меняет общего характера поведения функции.
Фактически это означает, что:
(3. 62) |
Если фактическая вероятность наблюдения i–го признака при предъявлении объекта j–го класса равна ожидаемой (средней), то наблюдение этого признака не несет никакой информации о принадлежности объекта к данному классу. Если же она выше средней – то это говорит в пользу того, что предъявлен объект данного класса, если же ниже – то другого.
Поэтому наличие статистической связи (информации) между признаками и классами распознавания, т.е. отличие вероятностей их совместных наблюдений от предсказываемого в соответствии со случайным нормальным распределением, приводит к увеличению фактической статистики c2 по сравнению с теоретической величиной.
Из этого следует возможность использования в качестве количественной меры степени выраженности закономерностей в предметной области не матрицы абсолютных частот и меры c2, а новой меры H, основанной на матрице информативностей и системном обобщении формулы Харкевича для количества информации: