17.10.2002
Развитие корпоративных баз данных в сжатом во времени виде повторяет общую историю развития ИТ. Корпорации начинают с небольших разрозненных баз, работающих под управлением скромных СУБД, постепенно переходя к централизованным базам на основе полномасштабных СУБД. Однако, накопив огромное количество данных, корпорации осознают, что само по себе обладание данными еще не дает им преимуществ. В статье излагается опыт использования технологий «поиска знаний» применительно к задачам, стоящим перед Государственным таможенным комитетом РФ.
Для того чтобы база данных работала эффективно, необходимо как минимум обеспечить экспертам оперативный доступ к информации, который не требовал бы от них навыков программирования и позволял представлять данные в привычном для экспертов виде. За последние пять лет мы реализовали несколько систем OLAP. К сожалению, в рамках технологий OLAP основная тяжесть анализа по-прежнему ложится на плечи человека. Более того, встречаются задачи, в которых либо объем информации слишком велик, либо решение зависит от множества факторов, что делает невозможным анализ данных вручную. На сегодняшний день многие поставщики программного обеспечения, в том числе Oracle, выпустили ряд продуктов, реализующих алгоритмы Data Mining и позволяющих автоматизировать процесс анализа данных.
Компания Oracle выпустила два программных продукта, реализующих алгоритмы поиска знаний: Oracle Data Mining Suite (Darwin) и Oracle 9i Data Mining (server option). Первый доступен уже в течение нескольких лет и, хотя степень его интегрированности с другими продуктами Oracle низка, предлагает достаточно мощный набор алгоритмов (классификационные и регрессионные деревья, нейронная сеть, кластеризация по ближайшим соседям). К безусловным достоинствам Darwin надо отнести наличие ряда утилит для подготовки входных данных, позволяющих объединять наборы, рандомизировать и трансформировать данные в соответствии с заданной функцией. Чрезвычайно полезной является наличие утилит предварительного анализа, в том числе построение гистограмм. Darwin интегрирован с MS Excel, что расширяет его возможности особенно в плане графики. Наличие графического пользовательского интерфейса делает доступным весь цикл работы с моделью для аналитиков, не имеющих достаточного опыта в программировании.
Oracle 9i Data Mining — сравнительно новый продукт и его первая версия включала лишь два алгоритма: простейший классификатор (Naive Bayes) по методу Байеса и поиск ассоциативных правил. Оба алгоритма хорошо известны и, несмотря на свою простоту, в ряде областей применений зарекомендовали себя как чрезвычайно успешные. Отличительной чертой Oracle 9i Data Mining является его интегрированность с Oracle Server причем не только при доступе к данным — алгоритмы реализованы как пакеты, хранимые в базе. Программный интерфейс реализован на Java, что делает взаимодействие с продуктом более гибким. Однако, в отличие от Darwin, графический пользовательский интерфейс полностью отсутствует. В последнем выпуске (Oracle Server 9.2) опция Data Mining была обогащена новыми алгоритмами. В частности, был добавлен адаптивный Байесов классификатор и O-кластеризация.
Имея два источника сведений о внешнеэкономической деятельности, можно попытаться сопоставить данные, одновременно анализируя всю совокупность ТНВЭД. Если сравнивать данные по группам товаров, то разница значений еще не может привести к каким-либо выводам, поскольку существуют естественные причины отклонения в данных ЕС и РФ:
ошибки ввода; округление веса до целого значения в тоннах (в базе EC); округление стоимости до целого значения в долл. (в базе РФ); несоответствие даты декларирования товара в РФ и стране-контрагенте (данные агрегированы до месяца, однако даты декларирования могут относиться к разным месяцам); разница курсов валют в момент вывоза и ввоза товара; различия в классификации ТНВЭД и ГС в РФ и EC, в результате чего некоторые товары могут быть учтены по разным группам ТНВЭД/ГС в статистике РФ и EC.
В то же время не могут быть непосредственно использованы оригинальные переменные: вес нетто и стоимость, так как различные группы товаров характеризуются различной ценой и характерными объемами перемещаемых товаров. Кроме того, цель анализа — не выявление расхождений между данными ЕС и РФ, а определение величины риска, связанной с данной группой товаров, т. е. величины относительного несоответствия между данными. В связи с этим в качестве основных переменных выбраны относительные разности по стоимости и весу нетто, определяемые как:
COST_RF, COST_ES — статистическая стоимость товаров данной группы по статистике РФ и EC соответственно, NETTO_RF, NETTO_ES — аналогичные показатели для веса нетто. Нормировка на минимальные значения обоснована, поскольку неизвестно истинное значение стоимости и веса, кроме того, это приближает распределение значений переменных к известному статистическому распределению (хотелось бы иметь распределение, хотя бы отдаленно напоминающее гауссово). Сравнить данные по всем группам можно, построив гистограмму для описанных переменных, показывающую, как часто встречается то или иное значение переменной (ось Х — значения переменной, Y — количество случаев, когда переменная принимала данное значение).
Oracle Darwin имеет утилиту для построения одно и двухмерных гистограмм данных, которой мы и воспользовались. На рис. 1 показаны нормированные распределения для относительного отклонения стоимости и веса для экспорта и импорта.
|
Рис. 1. Распределение относительных отклонений стоимости и веса между данными ЕС и РФ |
|
Рис. 2. Совместные распределения относительных отклонений стоимости веса. Слева — экспорт, справа — импорт |
|
Рис. 3. Совместное распределение относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта |
|
Рис. 4. Кластеры совместного распределения относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта |
|
Рис. 5. Найденный с помощью Darwin Match кластер в переменных netto-cost |
Как правило, при «прикрытии» одного товара другим в рамках одного груза (и одной таможенной декларации) действительно перевозятся оба товара, однако доля «дорогого» занижается. Этот факт и может быть использован для выявления подобных пар. При отборе потенциальных пар «товар риска» — «товар прикрытия» мы использовали следующие критерии:
Первый критерий основной и означает, что один из товаров вероятнее всего сопутствует другому. Выбор условных вероятностей, вместо, например, коэффициента корреляций, обуславливается их большей чувствительностью. Коэффициент корреляции близок к единице лишь в случае, если оба товара все время ввозятся одновременно. Мы же налагаем гораздо более слабое условие: лишь один из товаров постоянно сопутствует другому, поскольку один из товаров может ввозиться в больших объемах без всякого сопровождения. Использованный критерий известен в литературе как алгоритм ассоциированных правил и, в частности, реализован в Oracle Data Mining 9i. К сожалению, использованные данные находились в базе Oracle Server 8, в связи с чем пришлось использовать собственную реализацию алгоритма.
Впрочем, высокая корреляция одного из товаров с другим еще не означает, что товар обязательно прикрывается другим: множество людей ежедневно покупают одновременно хлеб и молоко без всякого злого умысла. И при импорте товаров существуют случаи естественной корреляции между товарами. Чтобы очистить отобранные пары от таких случаев, мы наложили дополнительные условия: прикрытие должно быть экономически выгодно, а сравнительный анализ статистических данных должен подтверждать факт прикрытия.
Анализ предоставленных ГТК данных выявил значительное количество пар, удовлетворяющих выбранным критериям. Безусловно, не все они являются парами «товар риска — товар прикрытия». Эффективность реализованного алгоритма может быть подтверждена только в ходе дополнительных проверок на таможенных постах. Однако следует отметить, что число подобных пар существенно меньше, нежели общее число товарных групп, и их список вполне может быть использован как рекомендация по более тщательному досмотру определенных грузов.
Одна из основных задач, стоящих перед таможенными органами, состоит в выявлении преднамеренного искажения грузовых таможенных деклараций. В силу ограниченных ресурсов полная проверка всех перемещаемых через границу грузов невозможна. Однако ГТК собирает подробные базы данных по грузовым таможенным декларациям. Анализ этих данных может быть использован для выявления тенденций во внешней торговле РФ и по группам товаров, наиболее подверженных фальсификации при прохождении таможни — «товарам риска». Имея данные о таких товарах, таможенные посты могли бы более тщательно проверять прохождение соответствующих грузов и уменьшить потери от фальсификации таможенных документов.
Одной из особенностей задачи стало отсутствие «тренировочного» набора данных — данных, для которых было бы априори известно, какие из них являются попыткой фальсификации грузовой таможенной декларации, а какие представляют собой добросовестно задекларированные товары. Это существенно ограничивало круг алгоритмов, которые можно было использовать: например, популярные методы типа классификаторы Байеса, деревья решений, нейронные сети и т.п. требуют предварительного обучения на тренировочном наборе данных. В нашем распоряжении оставались лишь алгоритмы кластеризации и ассоциативных правил.
Предметом анализа является база данных Европейского Союза по внешней торговле с Россией и база грузовых таможенных деклараций (ГТД) Единой Автоматизированной Информационной Системы ГТК России. ГТД может оформляться одновременно на несколько перемещаемых вместе товаров. База данных ЕС содержит только агрегированную до уровня одного месяца и восьми знаков товарную номенклатуру внешнеэкономической деятельности. ТНВЭД — это десятизначный классификатор товаров, используемый таможенными органами. В 2000 году он содержал более 12 тыс. групп товаров, а также информацию об объеме и стоимости перемещаемых товаров. В российскую же декларацию заносится детальная информация о каждом грузе. В своем анализе мы использовали лишь часть информации, содержащейся в декларации: направление перемещения (импорт/экспорт); объем (вес); стоимость в долл.; дата оформления.