13.5. Принципы текстового поиска

Рассмотрим теперь основные принципы построения современных систем текстового поиска. Разнообразие используемых здесь технологий вызвано различиями подходов, используемых для представления смысла хранимых в системе документов на естественных языках, и информационных потребностей пользователей, многообразием возможных критериев релевантности документов пользовательским запросам.

В отличие от технологий ранних информационно-поисковых систем, развитые современные технологии текстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т.п.). Эти атрибуты, хотя и могут, в частности, быть уникальными идентификаторами документов, но никак не характеризуют их содержания.

В развитых системах текстового поиска приходится иметь дело с проблемами обработки естественного языка (NLP), о которых шла речь выше. Необходимо решать сложные задачи формализованного представления содержания текстов документов и формулировок информационных потребностей пользователей на естественном языке. Необходимо при этом учитывать особенности естественных языков. Высказывания на естественном языке часто обладают двусмысленностью и избыточностью. Имеют место синонимия и омонимия терминов, многообразие грамматических форм элементов языка. Смысловые связи между словами в предложении часто представляются в неявной форме. Динамична лексика естественных языков, довольно часто во многих предметных областях появляются новые понятия и термины.У текстовых документов на естественных языках отсутствует явно выраженная структура их содержания. Поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными.

Другая сложная задача - смыловое сопоставление содержания хранимых в системе документов и выраженных на естественном языке пользовательских запросов, оценка степени их близости. Именно на этой основе оценивается релевантность рассматриваемого документа пользовательскому запросу.

В решении указанных задач возможны лишь эвристические подходы. По указанным причинам для выполнения текстового поиска необходимо использовать иную технику, чем в системах баз данных, хотя некоторые подходы, используемые в системах баз данных, применимы и для систем текстового поиска.