Краткая теория
Данная задача взята из книги Д.Мичи и Р.Джонстона "Компьютер – творец" (c.205-208), в которой она приводится в качестве примера задачи, решаемой методами искусственного интеллекта. Авторами этой задачи являются Рышард Михальски и Джеймс Ларсон.
Суть этой задачи сводится к тому, чтобы выработать правила, обеспечивающие идентификацию железнодорожных составов и прогнозирование направления их следования на основе их формализованных или вербальных описаний.
Выбор данной задачи не накладывает ограничений на выводы, полученные в результате ее исследования. Это обусловлено тем, что она имеет ряд характерных особенностей, наблюдающихся в подобных задачах в самых различных предметных областях. Поэтому ее с полным основанием можно рассматривать как типовую для широкого класса задач идентификации и прогнозирования.
Эти особенности состоят в следующем:
1. Рассматривается ряд объектов, имеющих сложную многоуровневую структуру признаков.
2. Для каждого из этих объектов известно, к каким обобщенным категориям (классам) он относится.
3. Необходимо сформировать модель, обеспечивающую как идентификацию объектов, так и определение их принадлежности к обобщенным классам.
Если признаки и классы относятся к одному времени, то имеет место задача идентификации (распознавания). Если же признаки (факторы, причины) относятся к прошлому, а классы, характеризующие состояния объектов, – к будущему, то это задача прогнозирования. Математически эти задачи не отличаются.
Существуют различные подходы к решению данной задачи, отличающиеся способами формализации предметной области, объектов обучающей выборки и синтеза математической модели.
В данной работе мы исследуется два основных подхода:
1. "Классический", основанный на изучении объектов предметной области экспертами (когнитивный анализ), выделении признаков объектов и формировании описательных шкал и градаций, которым соответствуют уникальные коды.
2. "Лингвистический", в котором вербальные описания объектов предметной области на естественном языке используются для автоматизированной формализации предметной области, формирования обучающей выборки и синтеза модели.
Задачами данной лабораторной работы являются:
1. Продемонстрировать студентам возможность выявления причинно-следственных связей между признаками внешнего вида (описательные шкалы и градации), и их полом, успеваемостью, тем, откуда они родом, обучением в той или иной группе (классификационные шкалы и градации).
2. Сформировать у студентов навыки формализации предметной области, подготовки и ввода обучающей выборки, синтеза информационной семантической модели и проверки ее адекватности, анализа модели (информационные портреты, кластерно-конструктивный анализ, семантические сети и когнитивные диаграммы, графическое отображение векторов классов и признаков).
Известно, что подчерк каждого человека зависит от его темперамента и других генетически обусловленных, конституционных качеств личности, обладающих высокой стабильностью (некоторые из этих качеств могут быть измерены с применением 16PF-опросника Кеттела), а также от текущего психического и физического состояния человека.
Учебные достижения по различным дисциплинам также зависят от конституционных качеств. Поэтому вполне корректно поставить задачу прогнозирования учебных достижений студентов на основе изучения особенностей их подчерка.
При проведении в 2001 году одного из первых в г. Краснодаре экспериментов по централизованному компьютерному тестированию для поступлении в вуз его организаторы предложили заполнить всем тестирующимся дополнительную социологическую анкету. Если бы удалось собрать данные с помощью этой анкеты по ряду регионов России и обработать их совместно с результатами тестирования по предметной обученности по ряду предметов, то в принципе оказалось бы возможным найти зависимости между характеристиками социального статуса абитуриента и его учебными достижениями. Безусловно, такие результаты представляли бы огромный научный интерес. Однако провести это дополнительное тестирование не удалось по ряду причин, среди которых основными, по-видимому, явились следующие:
– это тестирование не было бы анонимным;
– в анкету были включены некоторые вопросы, имеющие спорный характер;
– работа по организации проведению этого дополнительного тестирования потребовало бы от абитуриентов и организаторов проведения тестирования ранее незапланированных затрат времени и других усилий.
Но то, что в свое время не удалось сделать в масштабе России, вполне возможно осуществить в рамках одной лабораторной работы, в которой и предлагается использовать "ту самую социологическую анкету".
Язык является мощным средством моделирования реальности. Иерархическая структура языка, включающего в частности такие структуры, как символы, слова, предложения и тексты, является ярким примером иерархической структуры обработки информации, обеспечивающей адекватное отражение структуры реальности. Описание некоторых объектов на естественном языке является их моделированием и позволяет решать задачи идентификации, прогнозирования, сравнения и классификации этих объектов. Автоматизированный синтез моделей объектов, описанных на естественном языке, представляет большой интерес для теории и практики систем искусственного интеллекта.
Эффективность языка, как системы моделирования, удивительна: 32 буквы русского алфавита позволяют составить более 40 тысяч слов русского языка, из которых может быть образовано огромное количество осмысленных предложений.
Каждый символ содержит некоторое количество информации о словах, предложениях и текстах, в которые он входит, каждое слово – о предложениях и текстах, и каждое предложение – о текстах. Однако в буквах содержится больше информации о словах, в словах – о предложениях, в предложениях – о текстах. Поэтому на основе анализа букв целесообразно идентифицировать лишь слова, а на основе слов – предложения, на основе предложений – тексты.
В данной работе исследуется возможность идентификации слов по входящим в них буквам. При этом слова рассматриваются как классы распознавания, а буквы – как признаки.
Эта задача проста и наглядна. Поэтому она рекомендуется в качестве первой лабораторной работы для освоения инструментария системно-когнитивного анализа – универсальной когнитивной аналитической системы "Эйдос" [64, 92].
Подобные задачи имеют большое практическое значение и решаются в ряде систем, например, в редакторе Word – при проверке орфографии и подборе рекомендуемых слов для замены, в системе FineReader – для поиска слов с неверно распознанными символами и др.
Данная лабораторная работа является продолжением предыдущей, поэтому внимательно прочитайте теорию по предыдущей лабораторной работе. В этой работе исследуется возможность атрибуции текстов с применением технологии и инструментария системно-когнитивного анализа. Приведен подробный численный пример реализации всех этапов СК-анализа при атрибуции текстов, т.е. когнитивной структуризации и формализации предметной области; формирования обучающей выборки; синтеза семантической информационной модели; ее оптимизации и измерения адекватности; адаптации и пересинтеза; а также типологического и кластерно-конструктивного анализа.
Под атрибуцией анонимных и псевдонимных текстов понимается установление их вероятного авторства ([1-5] рекомендуемой литературы).
Анонимные тексты – это тексты вообще без подписи автора, а псевдонимные – подписанные не фамилией автора, а псевдонимом.
Задача идентификации текстов на основе анализа предложений является тривиальной из-за практически абсолютной уникальности предложений. Поэтому больший интерес представляет задача идентификация текстов на основе анализа слов, т.е. задача атрибуции текстов, имеющая очень большое научное и практическое значение. К этой задаче сводится определение вероятного авторства текстов в случае, когда автор не указан (анонимный текст) или указан его псевдоним (псевдонимный текст), а также датировка текста.
Но самое главное, что к задаче атрибуции текстов сводятся задачи идентификации, прогнозирования, сравнения и классификации объектов, описанных на естественном языке (причем не важно, на каком именно).
С ней связаны также задачи автоматического выделения дескрипторов и задачи нечеткого поиска и идентификации.
Все эти задачи имеют практическое значение для специалистов по прикладной информатики в экономике и юриспруденции, которых готовит Кубанский государственный аграрный университет.
Одному из вариантов рения этих задач с применением интеллектуальной технологии "Эйдос" и посвящена данная лабораторная работа.
Натуральные числа имеют ряд свойств, такие, например, как: делители, неделители, количество делителей и др. Существуют и более сложные свойства натуральных чисел, изучаемые в теории чисел. По этим свойствам числа классифицируются как простые, четные и т.д. Таким образом, исследование свойств чисел и является типичной задачей обучения распознаванию образов, идентификации и автоматической классификации. Эта задача довольно проста и наглядна, поэтому эта задача представляет для нас интерес в качестве учебной.
Когда мы зрительно воспринимаем окружающую действительность, то постоянно решается задача идентификации трехмерных тел по их проекциям. При этом мы можем наблюдать одну, две или даже три проекции тела.
Одну проекцию мы наблюдаем при наблюдении тела на достаточно большом расстоянии, при котором бинокулярность зрения несущественна, или при монокулярном наблюдении за очень короткое время, за которое точка зрения на тело не меняется или оно не успевает повернутся.
Ясно, что наиболее сложными условиями для идентификации формы тела являются те, когда мы видим лишь одну его проекцию (большое расстояние и малое время наблюдения).
Исследование проведено совместно с О.А.Засухиной на базе Кубанского государственного аграрного университета в 1993-1996 годах [64]. Предложенные технологии АСК-анализа реализовывалась на базе системы "Эйдос". С помощью сформированной содержательной информационной модели прогнозировались количественные и качественные результаты выращивания культур и вырабатывались научно-обоснованные рекомендации по управлению продуктивностью сельхозкультур и качеством сельхозпродукции.
Созданная модель включала:
– объект управления (сельскохозяйственную культуру); классы (будущие состояния объекта управления, т.е. количественные и качественные результаты выращивания);
– факторы управляющей системы (агротехнологии, т.е. нормы высева, виды и нормы внесения удобрений, методы вспашки, ротация севооборота и т.п.);
– факторы окружающей среды (вид почв, культуры–предшественники по предшествующим годам и др.).
Любая реальная информация о предметной области содержит как полезную информацию о закономерностях, так и шум. Соотношение между полезной информацией (сигналом) и шумом может быть различное:
– уровень сигнала может быть намного выше уровня шума, тогда шум можно считать несущественным;
– уровень сигнала может быть намного ниже уровня шума, тогда шум может существенно сказываться на свойствах модели.
Поэтому представляет интерес исследование семантической информационной модели, созданной на основе случайной обучающей выборки, в которой принадлежность анкет с описаниями объектов к классам и сам набор признаков в них – случайные.
Какая-то часть валидности обусловлена законами теории вероятностей, а какая-то – наличием закономерностей в предметной области и работой системы распознавания, причем в зависимости от параметров модели (размерности по классам и признакам и объема обучающей выборки).
Например, при увеличении объема выборки результат все ближе к предсказываемому теорией вероятностей. Но модель "борется" за повышение адекватности идентификации. И в результате получается валидность заметно выше, чем по теории вероятностей даже при довольно больших выборках.
Когда анализируешь величину интегральной валидности и оцениваешь ее в категориях "довольно хорошая", или "не достаточно высокая", то надо сравнивать ее с валидностью, получаемой по теории вероятностей. Например, если есть два класса, то валидность даже с неработающей системой распознавания должна быть 50% при равновероятных
классах, а если классов 10, то валидность должна быть 10%. И только то, что свыше этого значения, предсказываемого теорией вероятности, можно отнести на счет закономерностей в предметной области и работы модели.
Если статистика мала и закон больших чисел не применим, то система "Эйдос" воспринимает шум как закономерности (причем даже иногда детерминистского характера, когда статистики вообще нет) и дает тем более высокую валидность модели, чем меньше статистика.