Визуальные средства поиска информации в документоориентированных базах данных
В. Плешко, Гарант-Парк
Постоянно растущий поток документов, проходящих через информационное пространство
предприятий, все чаще заставляет менеджеров информационных систем искать новые решения по
автоматизации документооборота. Основная проблема, которая встает перед пользователем,
имеющим дело с большими массивами документов - это быстрое получение необходимой
информации. Современные системы автоматизации документооборота предлагают в основном
следующие четыре вида поиска:
- поиск по атрибутам,
- гипертекстовые ссылки,
- тематические рубрикаторы,
- контекстный поиск.
Рассмотрим приведенные способы поиска с точки зрения возможности их автоматической
подготовки.
Редко случается, когда документы приходят в нескольких заранее установленных и неизменных
форматах, и появляется возможность создать средства поиска документов по атрибутам. В общем
случае автоматически удается отслеживать лишь минимальный набор атрибутов, как-то: время
поступления документа, источник.
Системы автоматизированной сортировки документов пока еще редко встречаются и довольно
дороги. Автору не известно ни одной такой системы, работающей с русским языком. Самый
простой выход из такой ситуации - это нанять экспертов по конкретной тематике для
сортировки документов по рубрикам. Однако, как показывает опыт, с ростом потока
документов, качество работы экспертов по заполнению рубрикатора снижается.
Расстановка гипертекстовых ссылок опять-таки лежит целиком на плечах экспертов. Этот
процесс поддается автоматизации только в простейших случаях, например, обнаружении в
тексте адресов Internet или терминов из толкового словаря.
Контекстный поиск - это единственный полностью автоматизируемый вид поиска. Он хорошо
работает в качестве дополнения к предыдущим средствам. Но на больших объемах информации,
когда нет возможности поддерживать рубрикатор или выделить атрибуты документов, и
контекстный поиск является единственным инструментом, получение пользователем нужной
информации сопряжено со значительными трудностями.
Тот, кто хотя бы раз пользовался
услугами поисковых серверов в Internet, например, , тот наверняка сталкивался с тем, что ответ на запрос может
состоять из нескольких тысяч документов.
Поэтому уже сейчас необходимы дополнительные средства, не требующие специальных форматов
представления документов, полностью автоматизированные и позволяющие сузить контекст
поиска.
Другая сторона разработки систем поиска информации - это улучшение пользовательского
интерфейса. В идеале интерфейс должен быть предельно простым, и пользователь должен иметь
возможность получать информацию посредством одного щелчка мыши.
Естественно, что любая новая технология, позволяющая хотя бы частично решить
вышеперечисленные проблемы, представляет большой интерес для любого, кому приходится
сталкиваться с большими объемами информации.
С начала своего существования фирма "Гарант-Парк" () активно занимается исследованиями по развитию методов поиска и
упорядочения информации для полнотекстовых баз данных. Эти исследования напрямую
связаны с деятельностью компании по разработке и поддержке WWW-версии СПС "Гарант",
которая хорошо известна широкому кругу пользователей, а также молодой, но быстро
развивающейся информационной системы "Парк", ориентированной на предоставление
информации экономического характера. Специалисты "Гарант-Парка" постоянно следят за
новинками в области новых информационных технологий и пополняют банк данных фирмы
информацией о перспективных направлениях. Так, в январе этого года из нескольких
кандидатов на внедрение была выбрана новая и перспективная технология, которая, по нашему
мнению, может претендовать на роль дополнительного средства поиска в
документоориентированных базах данных. Речь идет о методе WebSOM, предназначенном для
публикации документоориентированных баз данных в виде карты плотностей на
плоскости.
WebSOM является аббревиатурой слов Web Self-Organization Maps, что можно перевести, как
самоорганизующиеся карты (SOM) для Web.Данная технология была разработана группой
ученых, возглавляемой профессором Хельсинкского Технологического Университета Т.
Кохоненом. Первая публикация на эту тему в Internet была в январе 1996 года по адресу href="http://websom.huf.fi/websom/"> http://websom.huf.fi/websom/. Там доступны статьи с
описанием метода и демонстрацией визуального представления массивов документов из групп
новостей Internet.
Специалистам "Гарант-Парка" пришлось адаптировать данную технологию к русскому языку,
и совсем недавно демонстрационная версия русского WebSOM появилась на сервере "Гарант-
Парка" по адресу .