"Pro Digital" №36 2008 год

Наша задача - разработать технологии и спроектировать системы управления бизнес-процессами наших клиентов для оптимизации и достижения наибольшего экономического эффекта.


В журнале Pro Digital №36 за февраль 2008 года продолжен цикл статей о решениях компании "Эскейп" в области нормализации и ведения НСИ ("мастер-данных"). В статье "Быстро... и просто" рассмотрена методология поиска, реализуемая в информационных системах с точки зрения потребителя. Сформулированы требования к информационной системе, позволяющие полномасштабно использовать все аспекты методологии. Авторами также предложен апробированный вариант технологического решения.

Информационный поиск: идентификация или классификация?

Основная задача любой информационной системы – предоставить потребителю требуемую информацию. Следовательно, эту информацию необходимо найти.

В электронном хранилище информация представлена в виде совокупности записей, каждая запись содержит информационную единицу – товарную позицию, данные персонифицированного учета, документ и т.д. Цель информационного поиска - помочь пользователю найти именно ту запись (или записи), в которой он заинтересован. Информационные потребности описываются в виде запроса, включающего некоторый набор ключевых слов.

Идентификация основана на максимально эффективном применении признаков объекта. Аналитический признак - определяемая величина, зависящая от природы объекта и по возможности не зависящая от количественных характеристик объекта; совокупность признаков формирует образ объекта, описываемый через ключевые слова.

Практически поиск может осуществляться либо непосредственно по набору признаков, либо по уточнению природы и признаков объекта через определение его принадлежности к некоторому классу. Класс - множество объектов, сходных по природе и признакам, классификация - процедура отнесения к тому или иному классу. Разумеется, классификация призвана решать и другие задачи (например, отчетно-аналитические), но они лежат за рамками данной публикации.

В идеале идентификация - предельный случай классификации, когда класс состоит из одного объекта, следовательно, распознавание образов можно рассматривать и как абстрактный вариант классификации.

На практике поиск осуществляется через комбинацию классификации и идентификации. Сначала наиболее полно определяется, где прячется искомый объект с помощью классификаторов, затем выбирается, что он из себя представляет – по известным признакам. Пример поиска схематично показан на рисунке.

Далее для простоты изложения рассматривается наиболее употребительный и одновременно наиболее проблемный справочник – справочник продукции.

Пользователь может идентифицировать требуемую продукцию непосредственно с помощью запроса по ключевым словам (либо фрагментам ключевых слов), что фактически соответствует фильтрации содержимого справочника продукции. При отсутствии точных признаков продукции, что, к сожалению, является одной из постоянных (и, видимо, пока слабо поддающихся решению) проблем, поиск осуществляется с помощью классификации – последовательного уточнения класса продукции по признакам классов согласно используемым классификаторам.

Результатом поиска посредством уточняющей классификации может стать совокупность объектов, формально не удовлетворяющих запросу пользователя по ключевым словам. При этом нельзя забывать о фактическом отсутствии единых классификаторов продукции (товаров, работ, услуг), пригодных для использования во внедряемых автоматизированных информационных системах: системах госзакупок, электронной торговли, системах материально-технического обеспечения.

Оба способа поиска продукции имеют равное право на существование - следовательно, представляется привлекательным использовать их независимо друг от друга в любой последовательности и в максимальном объеме. Примером реализации такого подхода можно считать систему 3U, разработанную компанией «Эскейп». В системе 3U, расшифровывающейся как «Товары, Работы и Услуги», такой подход обеспечивается:

·         разработкой определенной системы присвоения кодов в справочнике продукции;

·         возможностью использования любых классификаторов, «привязанных» к справочнику как кодификатору продукции;

·         возможностью расширения набора «ключевых слов» - простой и быстрой процедурой добавления любых полей, описывающих продукцию, в т.ч. графических объектов.

Возможности применения мультиклассификации (несколько классификаторов плюс связи между ними) в сочетании с практически неограниченным спектром информационных полей-признаков, предполагается подробнее рассмотреть в дальнейшем.

В.С. Миронов, руководитель проекта НСИ компании «Эскейп», Л.Г. Колчина, эксперт по вопросам ведения НСИ компании «Эскейп»

Журнал Pro Digital
Вернуться к списку