13.5.3. Индексирование документов

Представление документа обычно конструируется на основе множества каких-либо его свойств (атрибутов). В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами текста документа. В качестве атрибутов документа могут использоваться какие-либо внешние (по отношению к его тексту) характеристики, и совсем не обязательно, чтобы они идентифицировали документ уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и прочее. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра (см. ниже).

В системах контекстного полнотекстового поиска атрибуты представления документа - это термы, извлеченные из его текста - слова, словосочетания и т.п., или значения каких-либо специально подобранных функций, вычисленные на основе этих извлеченных термов.

В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами. На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра текстов документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа.

Заметим, что аналогичная техника индексирования используется в технологиях баз данных для обеспечения прямого доступа к данным в базе данных.

В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа. ИПС, в которых используется рассматриваемый подход, называются дескрипторными. Такие системы используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов.

Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в систему, или автоматически системными механизмами на основе анализа текста документа.

Методы формирования представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры. Поэтому они могут быть реализованы только автоматически.