1.5. Виды информации, хранимой в Интернете и профессиональных базах

В соответствии с Законом от 20 февраля 1995 г. № 224-ФЗ «Об информации, информатизации и защите информации» под терми­ном «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представле­ния. Специалисты в области теории познания утверждают, что че­ловек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются клас­сами объектов. Предметная область — это классы объектов, информа­ция о которых необходима в данном виде деятельности человека. В каж­дой предметной области потребителей интересует четко определенный перечень свойств и глубина описания этих свойств. Очевидно, что перечни интересующих потребителя свойств о лице в экономике и в ме­дицине будут различны.

Информация о предметной области, то есть об объектах и их свя­зях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свой­ства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет зна­чение этого свойства по отношению к данному классу объектов. Зна­чение свойства (характеристики) может задаваться нормированным словарем или произвольно. Например, значение свойства «организа­ционно-правовая форма фирмы, организации» должно выбираться из нормированного словаря, а значение свойства «название организации» является произвольным. Формализованное описание объекта во мно­гом схоже с анкетной формой описания объекта. Некоторые авторы называют формализованное описание информации числовым. Это не совсем точное определение, так как фамилия лица или название орга­низации задается не числовым значением, но может быть представле­но в формализованном виде.

Названия классов объектов, свойств и областей возможных значе­ний этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифи­цированные специалисты данного вида деятельности. С помощью от­дельных свойств устанавливаются связи между объектами. Так, на­пример, если описаны два объекта: фирма и товар, — то между ними устанавливается связь — отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка пос­ле согласования с источниками и потребителями информации в дан­ной предметной области издается в виде нормативного документа, и на основе его создаются базы данных формализованной информа­ции. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в ко­торой он работает. Формализованный язык описания предметной об­ласти выполняет следующие основные функции:

Другим видом информации о предметной области является инфор­мация, представленная в виде текста на естественном языке.

Для того чтобы понять, в какой степени информация на естествен­ном языке, накапливаемая в информационных системах, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупно­сти представлений и понятий [10]. Представления — это чувственно наглядные образы объектов реального мира. Источником формирова­ния представлений являются психологические процессы ощущения и восприятия, а также информация, получаемая от других членов об­щества в процессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный харак­тер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, которой по­зволяет использовать представления в процессе общения.

Понятия образуются в результате логического осмысления пред­ставлений об объектах реального мира и являются формой абстракт­ного мышления, отражающей и фиксирующей существенные призна­ки данных объектов Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связа­ны друг с другом и являются формой отражения реальной действи­тельности в мышлении

Язык — это средство, с помощью которого люди передают друг дру­гу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. По­скольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественно­го языка: одно и то же слово приобретало множество различных зна­чений, и для одного и того же слова использовалось несколько словес­ных выражений. Таким образом, общими недостатками естественного языка с позиций оценки эффективности поиска являются избыточ­ность и недостаточность.

Избыточность проявляется в следующем:

1) активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущер­ба для понимания смысла,

2) в естественном языке используются синонимы, то есть слова, разт личающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

3) имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися сино­нимами (например, «уменьшение сопротивлениям — «увеличение проводимости»).

Недостаточность выражения на естественном языке проявляется в следующем:

1) многозначность отдельных слов — омонимия (совпадение по зву­чанию и написанию разных по значению слов). Например, ключ (для двери), ключ (источник),

2) эллипсность естественного языка. Под эллипсностью понимает­ся пропуск в тексте подразумеваемых слов.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то в нем можно выделить план содер­жания — смысл сообщения, то есть результат процесса мышления, и план выражения — произвольный текст на естественном языке. Та­ким образом, тексты на естественном языке, хранящиеся в информа­ционных системах, находятся на уровне плана выражения и характе­ризуются всеми недостатками естественного языка, которые были отмечены выше. Следует иметь в виду, что выявленные недостатки следует рассматривать лишь с позиций эффективного поиска сообще­ний в информационных системах. Причина неоднозначности выраже­ний, например эллипсность, при рассмотрении под другим углом бу­дет отнесена к достоинствам естественного языка.

Отметим, что потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со сво­ими представлениями об объектах, свойствах и отношениях в этой об­ласти. Свой запрос он также формулирует на уровне плана выражения.

Таким образом, в самой информационной системе, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе информационной сис­темы мы имеем множество запросов в виде планов выражения, сфор­мулированных потребителями информации.

Для того чтобы решить задачу поиска необходимой потребителю информации, необходимо смоделировать (представить) — о каком фрагменте предметной области потребитель хочет получить инфор­мацию Далее необходимо просмотреть хранящиеся докуменгы — пла­ны выражения, составленные источниками, представить (смоделиро­вать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.

Работы в области машинного перевода и теории построения доку­ментальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит ав­томатизации и может быть реализован лишь человеком, обладаю­щим глубокими знаниями в данной предметной области.

Однако общество нуждалось в построении документальных инфор­мационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществ­лялось сравнение поисковых образов запросов и поисковых образов документов, которое проводилось на одном и том же искусственном язы­ке. Такой подход является вынужденным.

Из-за недостатков естественного языка, отмеченных выше, доку­ментальные информационные системы не дают ответа на вопрос по­требителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смыс­ловое содержание этих документов. Вопросы оценки эффективности поиска информации в документальных информационных системах будут рассмотрены ниже.