2.2. Хранение информационных ресурсов

Эта функция информацион­ных систем связана с необходимостью управления двумя видами ресур­сов – ресурсами хранимых данных и ресурсами памяти. Требования к этим функциям различаются в разных классах информационных сис­тем. Рассмотрим, каким же образом организованы хранение информа­ционных ресурсов и доступ к ним в наиболее распространенных классах информационных систем.

В системах текстового поиска каждый документ хранится обычно в от­дельном файле. Доступ к документам осуществляется с помощью струк­тур данных, называемых индексами. Индексы в системах текстового по­иска позволяют определять адрес размещения нужного файла по так называемым индексирующим свойствам хранящегося в нем докумен­та – по значениям каких-либо атрибутов, ассоциированных с докумен­том, по содержащимся в нем словам или словосочетаниям и т.п. При этом единицей доступа является полный документ. Управление памятью осуществляется в таких системах средствами компонента операционной системы компьютера, называемого файловой системой или системой управления файлами. Индексы документов в системах текстового по­иска организуются в виде так называемых инвертированных списков. Для каждого значения индексирующего свойства документов в таких индек­сах поддерживаются адреса или идентификаторы файлов, их содержащих.

Файловая организация хранения информационных ресурсов исполь­зуется также в действующей версии Web, основанной на технологиях HTML. Здесь каждая HTML-страница представлена в общем случае в виде совокупности файлов. Главный из них – это основной структу­рообразующий файл данной страницы. Он имеет формат HTML. Кро­ме того, в отдельных файлах представлены встроенные изображения и другие компоненты страницы, на которые имеются ссылки в ее глав­ном файле. Доступ к страницам Web осуществляется непосредственно по их уникальным «адресам» в Web, называемым URL (Universal Resource Locator) [10], либо с использованием навигации по гиперссылкам. Еди­ницей доступа здесь является полная страница Web, хотя при навигации очередная гиперссылка может указывать только на фрагмент страницы. Функции управления ресурсами памяти, служащими для хранения ре­сурсов Web, возлагаются на операционные системы тех компьютеров сети, которые содержат используемые страницы.

Нужно заметить, что в связи с интенсивным ростом объемов инфор­мационных ресурсов Web навигационный доступ к требуемым ресур­сам стал неэффективным. Пользователям Web обычно известно лишь ограниченное количество URL интересующих их страниц Web. Поэто­му он в сравнительно небольшом числе случаев может воспользоваться прямым доступом к информационным ресурсам Web.

Вот почему стали создаваться приложения Web, называемые поиско­выми машинами. Поисковая машина с некоторой периодичностью про­сматривает страницы закрепленной за ней группы Web-сайтов и строит либо актуализирует полнотекстовые индексы для этих страниц. На этой основе осуществляется обработка пользовательских запросов так, как это делается в системах текстового поиска.

Более тонкую организацию имеют механизмы управления хранением данных и пространством памяти в информационных системах, основан­ных на технологиях баз данных. Причины заключаются в том, что в сис­темах баз данных используются более сложные структуры данных, тре­буется значительно более мелкая гранулярность доступа к ресурсам, более динамичный характер имеют хранимые данные.

Управление хранимыми данными в системах баз данных включает поддержку структуры хранимых данных, их размещение в пространстве памяти, поддержку физической целостности и обеспечение эффективно­го доступа к ним. Чаще всего используются прямой и последовательный доступ к единицам информационных ресурсов в каком-либо определен­ном порядке.

Прямой доступ осуществляется по известным значениям некоторых свойств (ключей) единиц информационных ресурсов. Для этой цели ис­пользуются вспомогательные хранимые структуры данных, обеспечива­ющие отображение ключей в адреса размещения соответствующих еди­ниц информационных ресурсов, например строк таблиц в реляционных базах данных.

Чаще всего в качестве таких вспомогательных структур используются эффективно организованные индексы и хеш-таблицы.

Индексные структуры, организованные в виде деревьев специаль­ных видов, обеспечивают быстрый поиск с помощью навигации в этих деревьях по коротким цепочкам указателей и, возможно, ограниченного перебора. Существует большое многообразие способов построения ин­дексов.

Хеш-таблицы, в отличие от индексов, обеспечивают определение ад­реса размещения искомой (или размещаемой) единицы информацион­ных ресурсов не путем навигации в индексной структуре, а с помощью вычисления некоторой функции отображения ключа в адрес. Значе­ния этой функции представляют собой случайные числа, равномерно распределенные в заданном интервале, которые используются как номера участков во внешней памяти или строк таблицы хеширования, содержащих соответствующие единицы информационных ресурсов или их адреса.

Индексные структуры поддерживают доступ к хранимым единицам ин­формационных ресурсов в порядке соответствующих им ключей. Про­стая техника хеширования таких возможностей не предоставляет. Для этих целей применяют усовершенствованные методы хеширования.

Последовательный доступ к хранимым единицам информационных ре­сурсов осуществляется в порядке их физического размещения либо по зна­чениям некоторых содержащихся в них или ассоциированных с ними иден­тификаторов (ключей). В последнем случае для поддержки необходимой упорядоченности обычно используют индексы по заданным ключам.

Нужно заметить, что в унаследованных СУБД, основанных на гра­фовых моделях данных, использовался также и навигационный доступ к хранимым данным.

Управление ресурсами памяти в СУБД включает такие опера­ции, как учет свободного пространства памяти, выделение пространс­тва для размещения новых вводимых в систему информационных ресур­сов, так называемая сборка мусора – возвращение освободившегося пространства памяти в пул свободного пространства для повторного его использования. Нужно назвать здесь также операцию реорганизации среды хранения базы данных. В результате выполнения этой операции изменяется размещение хранимых данных в пространстве памяти систе­мы таким образом, чтобы стало возможным более эффективное исполь­зование ресурсов свободной памяти, а также чтобы сократить время до­ступа к часто используемым хранимым данным и т.п.

Важно заметить, что способы размещения информационных ресурсов в пространстве памяти системы и способы доступа к ним тесно связаны.

Среда хранения в системах баз данных также базируется на файловой организации. Однако над файловой системой надстраиваются механиз­мы, обеспечивающие более тонкие методы управления данными в тер­минах элементов содержания файлов. Единицей доступа здесь является, как уже отмечалось, не файл или порция файла, предусмотренная в фай­ловой системе, а порции информационных ресурсов с гораздо более мел­кой гранулярностью.