8.6. Поисковые машины

Если бы компьютер был высокоинтеллектуальной системой, которой можно было легко объяснить, что вы ищете, то он выдавал бы два-три документа - именно те, которые вам нужны. Но, к сожалению, это не так, и в ответ на запрос пользователь обычно получает длинный список документов, многие из которых не имеют никакого отношения к тому, о чем он спрашивал. Такие документы называются нерелевантными (от англ. relevant - подходящий, относящийся к делу). Таким образом, релевантный документ - это документ, содержащий искомую информацию. Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.

Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.

Проект Web первоначально предусматри­вал только навигационный доступ к представленным в его среде ин­формационным ресурсам с использованием гиперссылок, встроенных в HTML-страницы на стадии их разработки.

Однако в связи с беспре­цедентно быстрым ростом объема поддерживаемых информационных ресурсов стало ясно, что для эффективного доступа к ним пользова­телей необходимо иметь возможности поиска нужных ресурсов по их свойствам.

Вот почему в середине 90-х годов начали появляться разнообразные общедоступные системы текстового поиска для Web.

Эти системы назы­ваются по-разному: поисковыми машинами Web, поисковыми роботами, пауками и т.п. Их реализации не являются составной частью Web. Это приложения Web.

Поисковые системы с определенной периодичностью (от нескольких часов до нескольких дней) сканируют страницы “подве­домственных” им Web-серверов, формируют или актуализируют индек­сы, с помощью которых обрабатываются поступающие пользователь­ские запросы.

Крупные поисковые системы Web поддерживают индексы гигантских объемов, обрабатывают большое количество пользовательских запро­сов. Поэтому они требуют очень крупных вычислительных ресурсов.

Ранние поисковые системы Web обеспечивали простейший контекс­тный поиск. Позднее стали появляться реализации булевских моделей по­иска.

В последние годы интерес к проблемам текстового поиска в Web зна­чительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. Высокая активность ис­следовательского сообщества, многочисленные разработки в рассмат­риваемой области привели к учреждению в рамках конференций TREC специальной секции, посвященной проблемам поиска в Web.

В настоящее время существует целый ряд систем текстового поис­ка для Web, универсальных и ориентированных на определенные пред­метные области, международных и национального масштаба: круп­нейшая многоязыковая поисковая система AltaVista, системы Yahoo, Google, поисковая система по русским страницам Web Yandex и многие другие. Они различаются областью действия - составом сканируемых Web-серверов, организацией пользовательских интерфейсов, функцио­нальными возможностями механизмов поиска. Все они поддержива­ют различные версии булевской модели поиска. Ряд систем обеспечи­вает ранжирование результирующего множества документов. Система AltaVista реализует некое подобие обратной связи релевантности - пре­доставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рам­ках идентифицированного таким способом подмножества информаци­онных ресурсов, доступных системе.

Одним из примеров функциониру­ющих в среде Web специализированных поисковых систем является сис­тема СОЦИОНЕТ http://socionet.ru, в которой поддерживается на федеративных на­чалах архив распределенных информационных ресурсов - множество коллекций публикаций по экономике и другим общественным и гума­нитарным наукам, доступных на Web-сайтах ряда отечественных акаде­мических институтов, учебных заведений, публичных библиотек и других организаций.

СОЦИОНЕТ создана в Институте экономики и организации промыш­ленного производства Сибирского отделения РАН. Система основана на принципах, рассмотренных выше. Имеется стандарт метаданных для описания публикаций. Для включения данной публикации в какую-либо коллекцию распределенного архива необходимо зарегистрировать ее в каталоге системы. После этого она становится доступной пользовате­лям. Поисковая машина системы обрабатывает запросы пользователей.

Система позволяет персонализировать пользовательские интерфей­сы благодаря тому, что каждый пользователь может определить в систе­ме свой профиль, в частности коллекции архива, которые представляют для него интерес. В 2001 году в состав архива СОЦИОНЕТ было включено уже более 150 тысяч публикаций.