14.5. Векторные модели

В развитых системах текстового поиска наибольшее распространение получили векторные модели поиска. Использование таких моделей требует значительно больших вычислительных ресурсов по сравнению с другими моделями. Однако они обеспечивают существенно более высокое качество поиска.

В векторных моделях предполагается, что документы и запросы представляются нуле-единичными векторами. Координаты вектора соответствуют термам - словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области коллекции документов. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству термов в словаре.

В простейшем случае координате вектора присваивается единичное значение в том случае, когда соответствующий ей терм встречается в данном документе или, соответственно, в пользовательском запросе. В противном случае координате вектора присваивается нулевое значение. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие вектора оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их вектора. Например, часто в качестве такой меры используется косинус угла между вектором документа и вектором запроса. Важно заметить, что поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции-меры оказывают влияние только термы, общие для документа и запроса.

Для повышения управляемости векторных моделей поиска часто усложняют эти модели. Так, можно ввести веса термов, характеризующие их значимость. Значения этих весов используются в качестве координат вектора документа, если его текст включает соответствующие термы. Таким образом, вхождения различных термов в текст документа оказывают различное влияние на значение функции близости документа и запроса. Существуют разные подходы к выбору указанных весов. Чаще всего для этой цели используют произведение частоты вхождения терма в данный документ и частоты его вхождения во все документы коллекции в целом. Взвешиваться могут также и термы запроса.

Различия между конкретными векторными моделями поиска сводятся именно к различным способам назначения весов термов и выбора метрики для оценки близости документов и запросов. Векторные модели позволяют ранжировать результирующее множество документов запроса.