13.2. От ИПС к системам текстового поиска

Поиск информации с помощью компьютеров имеет уже почти полувековую историю. Именно эту функцию выполняли первые автоматизированные информационные системы, которые начали разрабатываться еще в 50-х годах прошлого века. Поэтому их назвали информационно-поисковыми системами (ИПС).

В зависимости от характера поддерживаемых информационных ресурсов эти системы было принято разделять на две категории. Одну из них составляли фактографические ИПС. Такие системы оперировали фактами, представленными в виде сущностей реального мира и их свойств. Фактографические ИПС позволяли находить сущности, обладающие заданными пользователем свойствами, а также свойства заданных сущностей. Когда в начале 60-х годов начали зарождаться технологии баз данных, стало ясно, что информационные системы этой категории представляют собой частный случай систем баз данных. В результате это направление в области информационного поиска постепенно было "поглощено" технологиями баз данных.

Другую категорию информационно-поисковых систем составляли документальные ИПС. Системы этой категории предназначены для хранения и поиска документов, содержащих тексты на естественных языках. Такие ИПС и представляют собой ранние системы текстового поиска.

Разрабатывавшиеся в то время системы текстового поиска назывались дескрипторными ИПС. В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их "заместителями", которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. Дескрипторные ИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.

Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. Такие системы хранят коллекции библиографических описаний документов и позволяют находить публикации заданного автора, публикации, выпущенные указанным издательством и/или издания, вышедшие в некотором году и т.п.

В процессе развития средств вычислительной техники компьютеры обрели устройства внешней памяти прямого доступа достаточного большого объема, значительно повысилась производительность процессоров. Это позволило создавать полнотекстовые документальные ИПС и использовать в них более совершенные технологии полнотекстового поиска.

Полнотекстовыми называют системы, которые хранят и обрабатывают не описания документов, как это делается, например, в библиографических системах, а полные их тексты. В таких системах реализуются процессы лингвистического анализа документов и поиска их по содержанию. Были разработаны подходы к автоматизации составления ряда используемых для этих целей словарей и тезаурусов. В технологиях полнотекстовых систем важное место занимают статистические методы анализа документов и коллекций документов.

Первоначально в полнотекстовых системах обеспечивался, главным образом, контекстный поиск, т.е. поиск документов, тексты которых содержат вхождение заданного в пользовательском запросе контекста. Позднее стал использоваться поиск по булевским критериям. Были разработаны также различные более тонкие модели поиска.

На протяжении всей истории систем текстового поиска активно проводились научные исследования в этой области. Большое влияние на развитие систем текстового поиска оказали новаторские исследовательские проекты и разработки экспериментальных прототипов полнотекстовых поисковых систем, выполненные в 60-х годах прошлого века. В настоящее время перспективные разработки в рассматриваемой области концентрируются вокруг авторитетной международной конференции по текстовому поиску TREC (Text Retrieval Conference), учрежденной в 1992 году в США Американским национальным институтом по стандартам и технологиям (NIST).

Активное развитие технологий текстового поиска и информационных потребностей пользователей стимулировали трансформацию ИПС из систем текстового поиска в системы более общего класса, которые имеют дело не только с текстовыми документами, но и с документами, содержащими информацию иной природы. В таких системах (их называют мультимедийными) содержание их объектов поиска - документов - составляет сочетание информационных ресурсов, представленных в различных средах - текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом и т.п.), мультфильмов, видео клипов и т.п.

Чтобы различать системы текстового поиска и поисковые системы, оперирующие этими иными видами информационных ресурсов, в последние годы наряду с термином информационно-поисковая система (Information Retrieval System, IRS) стали употреблять термин система текстового поиска (Text Search System или Text Retrieval System).

Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок. Эта область охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации. К ней относятся также проблемы обеспечения интерфейсов между пользователями и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. В системах текстового поиска находят применение как аналитические, так и эмпирические подходы.

Значительное место в технологиях текстового поиска занимает обработка естественного языка (Natural Language Processing, NLP ). Под обработкой естественного языка понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

В современных технологиях текстового поиска используются не только аппарат лингвистики для анализа текстов, но и различные эвристические подходы, статистические методы, математическая логика и теория вероятностей, методы искусственного интеллекта, а также технологии управления данными.

Работы по информационной супермагистрали, в частности, связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 90-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Веб, мультиязыковой поиск.

За свою полувековую историю развития технологии текстового поиска сделали огромный шаг от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Cовременная вычислительная техника позволяет хранить огромные объемы информационных ресурсов в системах текстового поиска, осуществлять в них не только технические, но и алгоритмически сложные процедуры обработки хранимых коллекций документов - их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.

Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимых во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.