Хранилища данных - статьи

         

Дадим слово критикам


Подготовлено: по материалам зарубежных сайтов
Перевод: Intersoft Lab

Data Mining - простой термин, за которым стоит сложная функция и жаркие диспуты о ее полезности. Поборники технологии клянутся, что DM чрезвычайно полезен как инструмент взаимодействия с клиентами, а оппоненты ругают консервативные методы и потенциальную возможность нарушения конфиденциальности информации.



Использование специальной базы данных


Обычно поставщики Data Mining продуктов требуют использования дорогой специализированной базы данных, витрины данных или аналитического сервера, которые позволят исследовать информацию, прежде всего потому, что для эффективной обработки необходимо привести данные к некоему специальному формату.



Эффективность и производительность


Существует несколько научных школ, каждая из которых придерживается своего мнения насчет технологии Data Mining и ее эффективности. Некоторые специалисты по маркетингу и поставщики приложений считают средства Data Mining, которые редко работают в online-режиме, символом всего устаревшего. В такой форме DM можно использовать для создания широкого профиля определенных типов клиентов - для выяснения, например, что молодые люди в возрасте от 16 до 21 года предпочитают играть в видеоигры, а не посещать картинные галереи, - но ключевой информации о характере поведения конкретного человека эти средства не дают.

Другие разработчики считают, что средства Data Mining работают слишком медленно и не могут выполнять точный анализ и предлагать пользователю нужную услугу в тот момент, когда он находится на сайте поставщика.

"Другие возражения возникают против систем, основанных на правилах, которые выполняют Data Mining анализ на сервере", - утверждает Брэд Вилсон (Brad Wilson), вице-президент отдела маркетинга компании Epiphany, расположенной в городе Сан-Матео (San Mateo), штат Калифорния. Он даже припомнил историю одной фирмы, которая подсчитала, что для того чтобы отразить все возможности на их сайте, потребуется написать 90 тыс. правил для использования традиционных Data Mining методов. Компания решила остановиться на написании одной тысячи правил на первом этапе, учитывая при этом высокую вероятность ошибки. Однако тут еще надо было учесть, что правила пишутся людьми, а они могут быть необъективны.



Конфиденциальность


Одно из возражений против Data Mining звучит особенно громко. Сам по себе аналитический DM-процесс применяется к накопленным анонимным данным, при этом выявляются возможности использования, тенденции приобретения и десятки, если не сотни, других факторов. Но вот выполнение следующего этапа обработки данных - попытка связать их с характером поведения конкретного клиента, чтобы извлечь некий личный опыт взаимодействия с этим человеком, - вызывает настороженность среди поборников прав на неприкосновенность частной жизни.

Вопросы конфиденциальности информации представляют собой интересную задачку. Недавний опрос Harris Interactive показал, что потребители больше беспокоятся о своих правах на неприкосновенность частной жизни, чем о здоровье, налогах и преступлениях. С другой стороны, в одной из статей информационного ресурса ZDNet было отмечено, что лишь ничтожная часть потребителей, посещающих самые популярные сайты, обращает внимание на опубликованные правила, касающиеся конфиденциальности информации. За последний месяц только один из 500 тыс. посетителей сайта About.com щелкнул по соответствующей ссылке.

Защитники конфиденциальности говорят о том, как важно быть честными с клиентами и сообщать им о собираемых данных и целях их использования. "Конфиденциальность не всегда противоречит сбору данных, - поясняет Эндрю Шен (Andrew Shen), аналитик в компании Electronic Privacy Information Center (EPIC). - Всё сводится к тому, чтобы дать клиентам возможность управлять своими данными".

Директивы кажутся простыми, но на практике их реализация сложна. В целом они звучат так:



Сообщить людям, какие вы собираете данные и как планируете их использовать. Дать возможность эту информацию о себе не указывать. Обеспечить просмотр и корректировку личных сведений.

Поставщики ПО для Data Mining решили пойти самым трудным путем, пропагандируя возможность клиентов выполнять директивы EPIC.



Мнение экспертов


Полезно узнать, каково же мнение экспертов относительно этой новой технологии. Приведем несколько кратких цитат наиболее влиятельных членов бизнес-сообществ.

Руководство по приобретению продуктов Data Mining (Enterprise Data Mining Buying Guide) компании Aberdeen Group: "Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров.

Чтобы максимально использовать мощность масштабируемых инструментов Data Mining коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников и установить специальную среду для работы Data Mining алгоритмов.

Результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от "чудесных возможностей" некоего алгоритма или набора алгоритмов. Около 75% работы над Data Mining состоит в сборе данных, который совершается еще до того, как запускаются сами инструменты. Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов".

Мнение Херба Эдельштайна (Herb Edelstein), известного в мире эксперта в области Data Mining, Хранилищ данных и CRM: "Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается.

IT-команды увлеклись мифом о том, что средства Data Mining просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный Data Mining проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных".



Несоответствие результатов прогнозирования реальной ситуации


Есть одна сложнейшая задача, вставшая перед Data Mining, которую многие эксперты считают неразрешимой и которая оправдывает тот скептицизм, который часто слышен в адрес этой ниши рынка. Средства Data Mining хорошо прогнозируют поведение потребителя на основе данных за прошлые периоды, то есть дают информацию о том, что человек, исходя из его предыдущих приобретений, демографических данных и других параметров, захочет купить с наибольшей вероятностью. Но, по мнению критиков, DM никогда четко не предскажет, что же человек захочет купить на самом деле.

Например, DM-приложение может определить, что 34-х летная домохозяйка, имеющая двоих детей, вероятнее всего каждые три года в ближайшее десятилетие будет покупать отдельную микроволновую печку. Но такое ПО не может определить, что именно эта клиентка скорее купила бы более дорогую печь, где комбинируются микроволновый и конвекционный режимы, если бы та подошла ее по цене.

Кайл Джонстон (Kyle Johnstone), руководитель BI- компании Emerald Solutions утверждает, что для повышения прибыльности (т. е. достижения основной цели маркетинга) в первую очередь нужно не столько просто узнать, чем человек довольствуется сейчас, сколько выяснить, а что он купит охотнее всего. Единственный способ решить эту задачу - спросить у клиентов, чего же они действительно хотят, а не рассчитывать на информацию о характере их прежних приобретений.

"Люди будут утверждать, что любят бифштексы, но для вечеринки в честь Дня Независимости покупают гамбургеры. Есть некоторое несоответствие между тем, что человек покупает, и тем, чего он хочет", - поясняет он. - Можно вычислить характер поведения показателей эффективности, но главной частички головоломки - знания того, чего же хочет клиент - всё равно будет не хватать. Математически это определить невозможно".



Опытность пользователя


Различные инструменты Data Mining имеют свои сильные и слабые стороны. Поэтому конкретные программы должны четко соответствовать уровню подготовленности пользователя и его конкретным целям. Кроме того, Data Mining, как правило, подразумевает употребление определенного технического жаргона, который может сильно усложнить для неопытного пользователя понимание работы программы, ее сути, практических результатов, а также того, какой продукт и каким способом лучше всего использовать для достижения определенных бизнес-целей. Это вызывает замешательство, и часто потенциальный клиент может вообще отказаться от использования Data Mining. Еще хуже если клиент вложит большие средства и пойдет неверным путем или потратит деньги на освоение различных инструментов для того, чтобы, наконец, понять, как нужно было применять Data Mining в данной области деятельности.

"Если Data Mining применяется неправильно, это может разорить компанию", - утверждает Джеф Харибсон, главный администратор компании Elity Systems, занимающейся технологией персонификации. - Использование Data Mining должно быть неразрывно связано с повышением квалификации пользователя".

"Очевидно, что необходимы хорошие специалисты, и применение сложных инструментов предъявляет все большие требования к людям, которые необходимы компании, - указывает Мэри Келли (Mary Kelley), вице-президент отдела маркетинга компании Charles Schwab & Co. "Однако специалистов по Data Mining, которые бы хорошо разбирались в бизнесе, очень не много", - добавила она.

Извлечение полезных сведений невозможно без хорошего понимания сути данных. Кроме того, во многих случаях необходима тщательная интерпретация тех зависимостей или шаблонов, которые были обнаружены. Поэтому работа с этими средствами требует тесного сотрудничества между бизнес-экспертом и специалистом по инструментам Data Mining.

Правильное использование прогнозирующих моделей должно быть грамотно интегрировано в реальные бизнес процессы, с тем, чтобы можно было четко оценивать и обновлять модели.



Проблемы


Осветим подробнее проблемы, связанные с использованием DM-технологии.



Сложность инструментов


"Сложность - существенный барьер для внедрения Data Mining", - утверждает Грегори Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro), руководитель проекта в исследовательской лаборатории корпорации GTE. - Большинству пользователей не нужен реактивный двигатель. Им нужен всего лишь автомобиль с водителем, который доставит их из пункта A в пункт B".

Есть и такие шутливые мнения, что Data Mining - настолько сложная технология, что для ее освоения необходимо иметь чуть ли не три высших образования: одно в области статистики или вычислительных методов, другое в области бизнесе, чтобы понимать клиентов, и еще одно по вычислительной технике.

Фактически Data Mining - это результат совместных усилий специалистов во всех трех областях. Управление проектом должны брать на себя бизнес-специалисты, задачей которых является формирование набора бизнес-целей (бизнес-задач) и последующая интерпретация полученных результатов. Разработчик-аналитик, разбирающийся в методах Data Mining, в статистике и инструментах должен создать надежную модель. А специалисты по информационным технологиям обеспечивают обработку данных, а также техническую поддержку.



Трудозатраты


Успешный анализ требует очищенных и подготовленных данных. По утверждению аналитиков и пользователей очистка клиентских записей, разделение их на поддающиеся обработке, но статистически достоверные образцы, а затем тестирование и уточнение всех результатов, занимает до 80% процентов всего DM-процесса.

Таким образом, чтобы заставить технологию работать на себя потребуется много времени. Много усилий тратится на анализ предварительных данных и корректировку прогнозирующих моделей.

"Такая работа не очень хорошо идет на эмоциях, а маркетинг часто связан именно с эмоциями, - говорит Мэри Кэлли. - Иногда нужно глубоко вздохнуть и сказать: лучше еще раз это перепроверить".



За последние годы, когда, стремясь


" За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных… И вот все больше распространяется идея о том, что эти горы полны золота".
Различные Data Mining проекты (как сложные и так простые) внедряются многими компаниями, которые хотят извлечь некий смысл из тех необработанных данных, объем которых непреклонно растет в последние годы. В одной из статей в журнале Engineering News-Record отмечалось, что за счет электронной коммерции компаниям удается собирать огромные объемы данных о клиентах, начиная с количества Web-пользователей в семье и кончая стоимостью машин в их гаражах.
С помощью средств Data Mining менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет.
Ряд небольших фирм маневрирует на рынке в поиске своей клиентуры, а крупные поставщики баз данных, такие как Oracle и IBM тоже внедряются в эту сферу. Другие производители ПО создают упрощенные DM приложения для неспециалистов (людей, не разбирающихся в статистике), при этом технология становится более понятной и удобной для специалистов по маркетингу и других неподготовленных пользователей.
Эксперты считают, что в ближайшее десятилетие Data Mining станет одним из самых перспективных направлений разработки ПО. За счет выявления содержательной структуры в собранной информации и ее анализа в режиме реального времени данная технология станет ключевым методом разработки "индивидуальной Сети", приспособленной под конкретные нужды каждого пользователя. По заявлению влиятельного издания MIT Technology Review, Data Mining - одна из десяти развивающихся технологий, которые "изменят мир".
Конечно, потенциал DM велик, но у медали, как говорится, есть и другая сторона.
Уже сейчас аналитики предупреждают потенциальных инвесторов, что этот еще не устоявшийся сегмент рынка ПО может быть чрезмерно разрекламирован. "Многие полагают: стоит только дать специалисту по маркетингу средства DM, и "секретный рецепт" будет у вас в руках, - говорит Боб Моран, вице-президент Бостонского отделения компании Aberdeen Group. - Но такого рецепта не существует. Метод Data Mining в основном оперирует оттенками серого, но никогда точно не скажет, где черное, а где белое".

Высокая стоимость


Хорошая Data Mining программа обходится в сумму от 500 тыс. до 1,5 млн. долл., которая необходима на программное, аппаратное обеспечение и техническую поддержку. Вкладывая средства в такой проект, необходимо убедиться, что эффективность инвестиций будет достаточно высокой. Неплохой проверкой является небольшой DM-проект (от 100 тыс. до 200 тыс. долл.), который позволит выяснить, достаточно ли того объема и качества данных, которые имеются в наличии, чтобы сделать Data Mining полезным для предприятия.

Рынок Data Mining растет. Однако программные инструменты составляют всего лишь 15%. Большая часть средств идет сервисным бюро и системным интеграторам, которые "защищают" пользователей от сложностей технологии.

"Необходимость в сторонней помощи и мощном оборудовании приводит к росту расходов на внедрение Data Mining до 2 млн. долларов и выше" - заключает Херб Эдельштайн, сотрудник компании Two Crows, - За эти деньги поставщики часто продают такую идею: Data Mining дает глубокие знания, которые постоянно приводят к "прорывам" в бизнесе. Однако это не так".



Высокий процент ложных результатов


Инструменты, занимающиеся поиском труднообнаруживаемых зависимостей в базах данных, могут раскрыть действительно драгоценные "самородки" информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Средства Data Mining часто представляются "волшебным ящичком", куда "насыпают" еще не обработанные данные, а "высыпают" уже готовое бизнес-решение. Увы, это не так.

Data Mining, к сожалению, очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл.

Некоторые ученые предупреждают, что общепринятые методы DM только "упрощают до абсурда" сложное искусство анализа и могут привести к неправильным выводам.

Джону Суоми (John Suomu) раньше представлялось, что с помощью его DM-инструмента удастся получить важные результаты. Казалось, программа обнаружила группу невыгодных клиентов, которые не стоили времени и средств туристической компании, где работал Суоми. Однако проверка показала, что такой результат связан с противоречивостью данных. Открытие оказалось ложным. "Мы подумали, что целый ряд людей - совершенно неподходящие для нас клиенты, хотя на самом деле это было не так", - признается маркетолог Суоми.

"Часто обнаруживаются странные вещи, и в 99,9% случаев они оказываются ложными", - утверждает Майк Айхорст, вице-президент отдела прогнозирования и Data Mining в компании Chase Manhattan Bank. - Постоянно попадаешь в тупик".

DM-инструмент может давать совершенно нелепые результаты, например: "Доктора, покупающие красные "Порше", составляют группу высокого риска невыплаты кредитов, а мужчины-курильщики из определенных районов оказываются выгодными клиентами". "Но такие утверждения могут быть основаны всего лишь на нескольких случайных примерах. А встроенных проверок нет" - объясняет Айхорст.

Например, компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными картами. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла.

Дэвид Лейнвебер (David Leinweber), управляющий директор в компании First Quadrant, вспоминает, что ему встречались результаты анализа данных, связывавшие эффективность акций с их серийными номерами: "Технология Data Mining раньше применялась на свой страх и риск, а теперь внедряются готовые DM-продукты".



И всё же, несмотря на


И всё же, несмотря на множество рассмотренных недостатков и проблем, связанных с Data Mining, всё больше и больше программных продуктов этого класса находят свое применение.
Ловушки Data Mining не остановили компанию Chase Manhattan, положившуюся на новые методы. Кредитное подразделение, которое работает с более 25-ю миллионами американских семей, использует множество автоматизированных инструментов для изучения характера покупательского поведения клиентов, кредитных рисков и других стратегически важных моментов.
Конкурентные преимущества, которые дает Data Mining, не позволяют игнорировать эту технологию. Но, чтобы получить полезные результаты требуются детальные знания данных и длительные проверки методом "проб и ошибок".
Специалисты, чувствующие высокий коммерческий потенциал средств Data Mining, рассматривают их не только в черно-белых красках. Они видят и другие цвета, полагая, что научный потенциал здесь дает "зеленый свет" для расширения границ применения технологии и влияния на прибыльность бизнеса.
Очевидно, что идея, лежащая в основе этой технологии, имеют массу плюсов. А критики заслуживают отдельные методы ее реализации.