7.4. Скрытый web

Скрытый или невидимый web - это чаще всего динамически формируемые web-страницы, содержание которых храниться в БД и доступно лишь по запросам пользователей.

В нашей модели Bow Tie это острова. Поэтому процентное отношение островов реальности будет больше.

Какие же ресурсы невидимы для поисковых систем?

Как работает робот ИПС? Типовой индексатор-робот посещает страницы по известным заранее адресам, анализирует их содержание и выделяют гиперссылки, идущие от них. Отработав текущую станицу, выделив ключевые слова, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и т.д. Обычно если робот определяет, что в данный момент обращается к динамической странице, он останавливает свою работу. Такая тактика выбрана потому, что чаще всего для получения осмысленного ответа из БД, требуется осмысленный запрос, а большинству роботов чужды элементы интеллекта, даже искусственного.

То есть скрытый web охватывает в первую очередь содержимое онлайновых БД, доступный в сети.

Динамической является и быстро обновляемая информация - новости, конференция, онлайн-журналы.

Конечно есть и явные острова, на которые не указывают никакие гиперссылки и от которых никаких ссылок не идет.

Защищенные паролями коммерческие сайты также попадают в категорию скрытого web. Их содержание не узнать с помощью ИПС. Однако их мало. Среди крупнейших сайтов скрытого веба платными являются только 10% ресурсов. Хотя это одни из самых важных.

Выделяют 12 разновидностей скрытых ресурсов относящихся к классу онлайновых БД: традиционные БД (патенты, медицина, финансы), публичные ресурсы: объявления о поиске работы, чаты, библиотеки, справочники. Это и спец. поисковые системы, которые обслуживают определенные отрасли или рынки.

К скрытым ресурсам относятся и системы интерактивного взаимодействия с пользователями - системы помощи, консультирования, обучения, требующих участия людей для формирования дин. ответов от серверов.

К ним можно отнести и закрытую информацию доступную пользователям только с определенных адресов, городов, стран.

К скрытым относят и страницы зарегистрированные на бесплатных серверах, которые индексируются лишь частично, поисковые системы во избежании рекламного спама не обходят их в полном объеме.

Недавно появились серые сайты функционирующие на основе систем управления содержанием. ИПС обычно ограничивают глубину индексирования таких сайтов во избежании возможного цикличного просмотра одних и тех страниц.

Скрытыми являются и сайты, создатели которых не оповещают кого-либо о создании этих ресурсов.

Основной формат с которыми работают ИПС - это HTML. С другими есть проблемы, различные версии PDF. К скрытым можно отнести Flash.

Для нашего пользователя наверняка скрытой является большая часть китайского интенета. Так www.baidu.com в 2004 опередил google по объему трафика и стал 4 в мире по этому показателю. Другая киатйская систма заняла 7 место - 3721.com

Крупнейшими ресурсами скрытого web являются БД Dialog и LexisNexis

Dialog.com имеет 900 БД, доступных 700 тыс. пользвателям, которые только за один час читают 17 млн. документов.

www.lexisnexis.com предоставляет своим пользваетлям юридическую, новостную, политическую, коммерческую и др. информацию. Имеет 35 000 источников информации, содержащей 4,6 млрд. документов с глубиной до 200 лет.

Лидером среди навигаторов в скрытом web является сайт www.completeplanet.com Это крпнейший каталог, насчитывающий 100 тыс. ссылок. Есть и спец. Утилита для поиска в скрытых БД.