Непараметричность модели. Робастные процедуры и фильтры для исключения артефактов
Предложенная семантическая информационная модель является непараметрической, т.к. не основана на предположениях о нормальности распределений исследуемой выборки. Под робастными понимаются процедуры, обеспечивающие устойчивую работу модели на исходных данных, зашумленных артефактами, т.е. данными, выпадающими из общих статистических закономерностей, которым подчиняется исследуемая выборка. Выявление артефактов возможно только при большой статистике, т.к. при малой статистике все частоты атрибутов малы и невозможно отличить артефакт от значимого атрибута. Критерий выявления артефактов основан на том, что при увеличении объема статистики частоты значимых атрибутов растут, как правило, пропорционально объему выборки, а частоты артефактов так и остаются чрезвычайно малыми, близкими к единице. В модели реализована такая процедура удаления наиболее вероятных артефактов, и она, как показывает опыт, существенно повышает качество (адекватность) модели.