13.5.2. Структурированные представления документов

Один из важнейших принципов организации текстового поиска состоит в использовании в процессе поиска вместо самих документов их структурированных представлений, иногда называемых представителями документов. Работа со структурированными представлениями документов, формируемыми в результате анализа их текстов, позволяет применять в процессе поиска формализованные методы, основанные на различных эвристических подходах.

Важное значение в выборе такого пути имеет и другой фактор. Анализ текста документа – довольно трудоемкая процедура. Документы могут быть довольно объемными. Коллекции могут содержать большое количество документов. Поэтому производительность системы текстового поиска, анализирующей полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере, была бы весьма невысока.

Использование представлений документов вместо непосредственно самих документов позволяет избежать трудоемкого процесса просмотра и анализа их полных текстов при выполнении поиска и вместе с тем использовать преимущества структурированного представления содержания документов для упрощения алгоритмов поиска.

Указанный подход возможен, поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе. Построение представления каждого имеющегося в системе документа можно осуществлять однократно при вводе его в систему.

В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенным образом зависит качество поиска - его точность, полнота, производительность и другие характеристики.