Интеллектуальные информационные системы

         

Информационная (статистическая) неопределенность в исходных данных


Данные, полученные о предметной области, не могут рассматриваться как абсолютно точные. Кроме того, очевидно, эти данные нас интересуют не сами по себе, а лишь в качестве сигналов, которые, возможно, несут определенную информацию о том, что нас в действительности интересует.

То есть, реалистичнее считать, что мы имеем дело с данными, не только зашумленными и неточными, но еще и косвенными, а возможно и не полными.

Кроме того эти данные касаются не всей исследуемой (генеральной) совокупности, а лишь определенного ее подмножества, о котором мы смогли фактически собрать данные, однако при этом мы хотим сделать выводы о всей совокупности, причем хотим еще и знать достоверность этих выводов.

В этих условиях используется теория статистических решений.

В этой теории существует два основных источника неопределенности. Во-первых, неизвестно, какому распределению подчиняются исходные данные. Во-вторых, неизвестно, какое распределение имеет то множество (генеральная совокупность), о котором мы хотим сделать выводы по его подмножеству, образующему исходные данные.

Статистические процедуры это и есть процедуры принятия решений, снимающих оба эти виды неопределенности.

Необходимо отметить, что существует ряд причин, которые приводят к некорректному применению статистических методов: 

1. Статистические выводы, как и любые другие, всегда имеют некоторую определенную надежность или достоверность. Но, в отличие от многих других случаев, достоверность статистических выводов известна и определяется в ходе статистического исследования.

2. Качество решения, полученного в результате применения статистической процедуры зависит, от качества исходных данных.

3. Не следует подвергать статистической обработке данные, не имеющие статистической природы.

4. Необходимо использовать статистические процедуры, соответствующие уровню априорной информации об исследуемой совокупности (например, не следует применять методы дисперсионного анализа к негауссовым данным). Если распределение исходных данных неизвестно, то надо либо его установить, либо использовать несколько различных методов и сравнить результаты. Если они сильно отличаются - это говорит о неприменимости некоторых из использованных процедур.



Содержание раздела