Типы систем индексирования, технологии обработки данный, информационный поиск

Существуют следующие типы систем индексирования: Системы свободного индексирования, Система полусвободного индексирования, Система со статистическим подходом, Системы индексирования, контролируемые заданным словарем (тезаурусом).

Технология обработки данных. Структура и функционирование конкретной ИПС зависят от вида и состава информационных источников, от способов реализации информационного поиска.

Под ИПС понимается некоторый комплекс связанных друг с другом отдельных частей, предназначенных для выявления в некотором множестве элементов информации, которая отвечает на информационный запрос, предъявляемый к системе.

Процедура информационного поиска документальной информации делят на 2 контура.

1. Семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов. 2. Отыскание самих документов (вручную или с помощью специальных технических средств, если ими оборудовано хранилище).

Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.

Под логикой ИПС понимают критерий выдачи или критерий смыслового соответствия (обязательный элемент), базисные (парадигматические) отношения и текстуальные (синтагматические) отношения между словами ИПЯ (могут отсутствовать).

Под информационным поиском понимается некоторая последовательность операций, выполняемых с целью отыскании документов (статей, научно-технических отчетов и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

Массив элементов информации, в котором производится информационный поиск, условно назван поисковым массивом.

Критерии поиска или критерии смыслового соответствия (КСС).

— Точность поиска определяется точностью отображения документов и запросов с помощью ПОД и ПОЗ. Для оценки качества поиска вводят специальные критерии.

— Релевантность — соответствие выдачи запросу, т.е. характеризуется качество алгоритма поиска.

— Пертинентность — соответствие выдачи потребностям пользователя, т.е. характеризуется смысловыражающая возможность ИПЯ, точность отображения с его помощью информационных потребностей.

Оценки документальных систем. Различают два класса оценок:

Внешние или функциональные оценки основаны на сравнении результатов работы системы с результатами идеального содержательного поиска, осуществляемого экспертом. Они предполагают понятие релевантности.

Внутренние или нефункциональные оценки — могут основываться на таких структурных качествах системы как сложность, степень близости к человеческой логике или естественному языку, степень алгоритмичности и т.п.

Оценка или метод оценкиэто алгоритмическая процедура, которая любому оцениваемому объекту из данной области ставит в соответствие некоторый другой объект, называемый значением оценки. Полностью алгоритмическую процедуру оценки называют формальной оценкой. Различают два типа внешних оценок: оценки-описания, значения которых характеризуют непосредственно систему безотносительно к другим системам; оценки-шкалы, значения которых определяют сравнительные достоинства различных ИПС.

Содержательные представления о сравнительных достоинствах называется содержательной оценкой.