Глава 13. Моделирование реальности в системах текстового поиска

Содержание

13.1. Начало
13.2. От ИПС к системам текстового поиска
13.3. Моделирование реальности в системах текстового поиска
13.4. Основные понятия
13.5. Принципы текстового поиска
13.5.1. Причины сложности текстового поиска
13.5.2. Структурированные представления документов
13.5.3. Индексирование документов
13.5.4. Дублинское ядро
13.5.5. Пользовательские запросы и критерии релевантности
13.5.6. Функционирование системы текстового поиска
13.5.7. Средства лингвистической поддержки

В главе использована книга [KAGA01], c. 130-149.

Значительную долю информационных ресурсов современных информационных систем составляет текстовая информация. Разработкам эффективных технологий хранения, обработки и поиска текстовой информации стало уделяться большое внимание уже на ранних стадиях развития информационных систем. Эта область информационных технологий начала активно развиваться еще в 50-х годах прошлого века, с того времени, когда средства вычислительной техники обеспечили возможность ввода-вывода текстовой информации.

Среди информационных систем, имеющих дело с текстовой информацией, наиболее распространенными являются системы текстового поиска. Их назначение заключается в том, чтобы находить в хранимых в компьютере коллекциях текстовых документов на естественном языке такие документы, которые интересуют пользователей.

Развитие систем текстового поиска стимулировалось в значительной мере разработками автоматизированных библиотечных систем, потребностями информационной поддержки научных исследований и образования. Однако в последние годы они все активнее используются также в управлении компаниями и во многих других сферах деятельности. О востребованности технологий текстового поиска в настоящее время свидетельствуют включение механизмов текстового поиска в целый ряд популярных коммерческих СУБД, а также создание основанных на этих технологиях многочисленных поисовых машин для Всемирной паутины.

Мы обсудим здесь кратко основные понятия и принципы текстового поиска, функциональные возможности предназначенных для этой цели современных информационных систем, а также перспективы их развития.