14.3. Контекстный поиск

Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова - это служебные слова (предлоги, союзы и т.п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос. Поэтому такие слова не могут использоваться в качестве индексирующих свойств документов.

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к "каноническому виду" с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса выделяются встречающиеся в его тексте слова и словосочетания.

Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа. Иногда используется более жесткий критерий релевантности - вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.