13.5.6. Функционирование системы текстового поиска

Рассмотрим теперь, как функционирует система текстового поиска. Современные системы текстового поиска используют довольно широкий спектр подходов к конструированию представлений хранимых документов и пользовательских запросов, к оценке релевантности документов, а также к используемой технике индексирования документов. Однако как в простых, так и в продвинутых системах используются некоторые общие принципы организации поиска. Эти общие принципы заключаются в следующем.

При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заменителем этого документа в процессе функционирования системы при обработке пользовательских запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов. Представление документа остается неизменным в течение всего периода существования документа в системе, поскольку содержание документа не изменяется.

Далее, на основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой системой путем анализа текстов документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов. Она также обеспечивает актуализацию индекса при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.

При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичен используемому для построения представлений документов.

Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому в системе критерию близости. Для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных документов (результирующего множества документов).

Хотя на практике используются различного рода представления документов и пользовательских запросов, указанные общие принципы текстового поиска едины для самых различных систем.