14.3. Контекстный поиск

14.3. Контекстный поиск
Пред.	Глава 14. Модели поиска	След.

14.3. Контекстный поиск

Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова - это служебные слова (предлоги, союзы и т.п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос. Поэтому такие слова не могут использоваться в качестве индексирующих свойств документов.

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к "каноническому виду" с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса выделяются встречающиеся в его тексте слова и словосочетания.

Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа. Иногда используется более жесткий критерий релевантности - вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.

Пред.	Уровень выше	След.
14.2. Простейшие модели поиска	Начало \| ToC	14.4. Булевская модель