1.6. Вопросы эффективности поиска информации в Интернете и профессиональных базах

Одними из наиболее важных показателей эффективности инфор­мационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соответ­ствие между содержанием документа и запроса. Объективность оце­нок релевантности обеспечивается тем, что они устанавливаются экс­пертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а — множество релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

в — множество релевантных, но не выданных системой документов.

Полнота выдачи (ПВ) = a / (а + в) * 100%

Точность выдачи (ТВ) = a / (а + б) * 100%

Потери информации (ПИ) = в / (а + в) * 100%

Информационный щум (ИШ) = б / (а + б) * 100%

Другой группой показателей оценки эффективности документаль­ных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность — это субъективно оцениваемое соответствие со­держания документов или текстов информационным интересам по­требителя. Пертинентность может оценить только автор запроса, ра­ботающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в профессио­нальных базах и информационных ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. эта доля составля­ла уже 84 %. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вы" вод о том, что подходы к оценке эффективности поиска в докумен­тальных системах в полной мере распространяются и на профессио­нальные базы, и на информационные ресурсы Интернета.

Информационные ресурсы Интернета и имеющиеся в среде Интер­нет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поис­ковые системы и каталоги. Поисковые системы состоят из трех частей;

  1. робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

  2. индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

  3. программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребите­лю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отне­сение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, ис­пользуя рубрики.

В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описа­ны исходные документы и запросы, полнота поиска в Интернете с уче­том указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

В 2000 г. специалисты компаний Alta Vista, IBM и Compag исследо­вали ресурсы и гиперсвязи существующего информационного про­странства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство со­стоит из следующих компонентов:

  1. центральное ядро — тесно связанные между собой web-страни­цы, с каждой из которых можно попасть на любую другую (27 %);

  2. отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);

  3. оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);

  4. полностью изолированные от центрального ядра страницы (22 %);

  5. web-страницы, не пересекающиеся с остальными ресурсами Ин­тернета (7 %).

Исследования показали, что при увеличении общего объема ин­формационных ресурсов Интернета установленные отношения ком­понентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интер­нета поисковые машины не имеют доступа.

У каждой поисковой машины свой процент индексирования доку­ментов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубеж­ными поисковыми системами, от общего числа документов в Интер­нете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно уве­личивается с каждым годом, при этом доля просмотренных и заиндек­сированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «не­видимую» части сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается по­исковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами. Аме­риканская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает бо­лее чем в 500 раз число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Интерне­та и поисковых средств позволяют сделать вывод о том, что эффектив­ность поиска информации в Интернете существенно уступает эф­фективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указан­ные обстоятельства определяют высокие требования к профессио­нальной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернета.

Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана спе­цифичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агент­ства-поставщики. Потребителю предоставляется язык запроса и доку­ментация, характеризующая базы данных, которая включает следую­щие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной ин­формации, период обновления, источники информации.

Указанные особенности обеспечивают высокие показатели по до­стоверности, полноте и точности предоставляемой информации.