Документальные информационные системы

Документальными называют информационно-поисковые системы (ИПС) – системы (Рис. 7), предназначенные для отыскания в множестве документов тех, которые посвящены указанной в информационном запросе теме или содержат необходимые сведения.

Цель системы, как правило, выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям. Например: выдать список всех статей, в которых встречается слово “система”. Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где система употреблена в ином смысле, чем предполагалось), а с другой — не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).

Информационно-поисковый язык (ИПЯ) является семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска.

Задачей ИПЯ является перевод содержания документа в поисковое предписание или поисковый образ документа ( при вводе документа в ИПС) и перевод содержания запросов пользователя в поисковый образ запроса (поисковое предписание).

Первые исследователи в качестве составляющих ИПЯ выделяли: алфавит (набор буквенных и цифровых символов); слова, формируемые из алфавита с помощью морфологических правил — морфологии, словарь перевода, (в котором каждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ); правила, отражающие взаимоотношения между словами реализуются, например, с помощью текстуальных или контекстуальных отношений, или с помощью специальных правил грамматики — синтаксиса.

Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Под дескриптором понимается некоторый (выбранный разработчиком ИПЯ) обобщающий термин для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами. Он может иметь достаточно сложную структуру, т.е. представлять собой тезаурус, который может включать в себя и алфавит, и слова, и словосочетания, и более сложные конструкции. Удобно пользоваться одним из принятых в лингвистике определений тезаурусакак множества смысловыражающих элементов языка с заданными смысловыми отношениями.

Проблема индексирования связана с семантическим анализом текстов документов. Сложность заключается в том, что индексирование документов и запросов разнесены во времени. Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для выделения наиболее значимых ключевых слов, дескрипторов, фраз.

Важность определяется на основе частоты использования термина в документе; на основе высказываний автора; с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в тексте; по критериям важности, сформированным пользователем, для чего при индексировании могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС, в основном, определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами.