Пример применения метода WebSOM
Визуально (рис. 1) предметная область представлена, как карта с разнородной окраской, где
более темные области соответствуют большему числу документов. В зависимости от содержания
документов области карты поименованы. Пользователь с помощью мышки выбирает любую
точку на карте и получает соответствующие ей документы. Для получения документов,
содержание которых находится на пересечении нескольких категорий (именно так в
терминологии WebSOM называются разделы предметной области), достаточно кликнуть
мышкой в точку, расположенную между или на пересечении областей этих категорий. В общем и
целом, придумать что-либо проще, с точки зрения пользовательского интерфейса, трудно.
В методе WebSOM можно выделить два основных этапа - подготовка категорий смысловых
единиц (фактически - это разделы предметной области, которую предстоит описывать карте) и
построение карты документов (это та картинка, с которой в результате будет работать
пользователь). При подготовке категорий смысловых единиц исходят из того, что смысловая
единица - это объект, однозначно идентифицируемый в тексте, и отвечающий какому-либо
понятию. Например, слово, слово с дополнительной информацией, словосочетание. Категория
смысловых единиц - множество смысловых единиц, отвечающих одному и тому же понятию.
Грубо говоря, в категорию "криминал" попадают смысловые единицы "преступление",
"убийство", "ограбление"... Эти категории необходимы для построения смысловых портретов
документов. Смысловой портрет документа - это многомерный вектор, отражающий содержание
документа. Категории смысловых единиц можно готовить как заранее для заданной предметной
области, так и автоматически. Здесь, собственно говоря, и основное различие оригинального и
адаптированного методов WebSOM. В оригинальном WebSOM это делалось автоматически, с
использованием семантических самоорганизующихся карт (SSOM). В адаптированном, в силу
особенностей русского языка, от этого пришлось отказаться - категории смысловых единиц
создаются вручную, а затем могут использоваться для построения карт по конкретной
тематике.
При автоматическом построении каждый документ сначала подвергается лексическому анализу,
при котором удаляются служебные символы и части речи. Затем документ подается на вход
семантической самоорганизующейся карты для обучения. Семантическая самоорганизующаяся
карта представляет собой специально обученную SOM и служит для выделения слов, близких по
смыслу в категории. Основная идея здесь состоит в предположении, что слова, близкие по
смыслу, употребляются в сходном контексте, т.е. у близких по смыслу слов распределение слов,
употребляемых до и после должны быть близки. В результате получается карта категорий слов,
представляющая собой двухмерный массив, с каждым элементом которого связан список слов.
Предполагается, что слова, связанные с соседними элементами отвечают близким по смыслу
понятиям (рис. 2).