17.2.9. Текстовый поиск в web

С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области.

В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo, Google, поисковая система по русским страницам Веб Yandex и многие другие. Они различаются областью действия - составом Веб-серверов, информационные ресурсы которых сканируются, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов, поддерживают обратную связь релевантности. Так, система AltaVista реализует возможности поэтапного сокращения области поиска. После проведения поиска пользователю предоставляется гистограмма, характеризующая статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML - технологической платформы Веб нового поколения. Важно заметить, что системы текстового поиска в Веб, основанные на стандартах платформы XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того, представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов.