booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 42

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf

Предыдущая << 1 .. 36 37 38 39 40 41 < 42 > 43 44 45 46 47 48 .. 64 >> Следующая

В ходе разработки энтропийной модели документального поиска мы попытаемся установить границы возможных аналогий между процесом передачи информации по шумящим каналам связи и документальным поиском, максимально придерживаясь обозначений, которыми оперировали в третьей главе.

Несмотря на то, что проблема передачи информации по каналам связи тесно переплетается с проблемой ее оптимального кодирования, представляется возможным раздельное рассмотрение задач, связанных с оптимальным кодированием и передачей уже закодированной информации.

Из совместного рассмотрения матриц сопряженности "вход-выход" и "релевантность-выдача", приведенных на рис. 3.1 и 5.1, легко обнаружить практически полное их совпадение. Это наводит на мысль, что для описания работы АСДП можно использовать разработанный К. Шенноном математический аппарат статистической теории информации. Ниже мы убедимся в адекватности математического аппарата статистической теории информации для описания документального поиска хотя бы в поведенческом плане его рассмотрения. Если отвлечься от конкретных технических, логико-лингвистических и программных средств реализации АСДП, то, как и при рассмотрении каналов связи, анализ АСДП можно свести к анализу работы некоего "черного ящика", который на каждый двоичный символ, поданный к его входу, "отвечает" соответствующим выходным двоичным символом. Входные и выходные двоичные символы мы будем интерпретировать следующим образом [2]:

входная единица будет интерпретирована как релевантный документ, поданный на вход АСДП для анализа его релевантности;

входной нуль будет интерпретирован как нерелевантный документ, поданный на вход АСДП для анализа его релевантности;

выходная единица будет интерпретирована как документ, признанный АСДП релевантным, независимо от того, является ли на самом деле этот документ релевантным или нет;

105

ГЛАВА 5выходной нуль будет интепретирован как документ, признанный АСДП нерелевантным, независимо от того, является ли на самом деле этот документ релевантным или нет.

Если рассматриваемый нами "черный ящик" таков, что в ответ на каждый поданный к его входу двоичный символ отвечает тем же символом, то он описывает идеальную систему документального поиска. Если же рассматриваемый "черный ящик" является идеальным инвертором, то он описывает систему, которая все релевантные документы признает нерелевантными, и, наоборот, все нерелевантные - релевантными.

В общем же случае о характере работы АСДП можно судить путем анализа матрицы сопряженности "релевантность-выдача", рассматривая следующие значения вероятностей, характеризующие ансамбль случайных величин XkY (см. рис. 5.1):

вероятность того, что наугад взятый из входного потока документ окажется релевантным (в литературе по информатике называется коэффициентом релевантности базы данных поставленному запросу), -

р(х = 1) = (О = (а + с)/п; (5.5)

вероятность того, что наугад взятый документ, поданный на вход АСДП, будет признан системой релевантным (в литературе по информатике иногда называется коэффициентом выдачи), -

p(y=l) = \ = (a + Ь)/п; (5.6)

вероятность того, что поданный на вход АСДП релевантный документ будет признан системой релевантным (в литературе по информатике называется коэффициентом полноты поиска), -

р{у=1/х=1) = к]=а/(а + сУ, (5.7)

вероятность того, что поданный на вход АСДП нерелевантный документ будет признан системой как нерелевантный (в литературе по информатике называется коэффициентом специфичности), -

р(у = о /х = 0) = Х2 = d/(d + b); (5.8)

вероятность того, что документ, признанный системой релевантным, на самом деле окажется релевантным (в литературе по информатике называется коэффициентом точности), -

p(x=l/y=l) = (al = a/(a + b)\ (5.9)

вероятность того, что документ, признанный системой нерелевантным, на самом деле окажется нерелевантным, -

р(х = Ofy = O)= (O2= d/(c + d). (5.10)

Естественно, что при конечных значениях а, Ь, с и d речь может идти не о самих значениях соответствующих вероятностей, а о тех или иных их статистических оценках. Поэтому далее будем считать, что

106величины a + b, а + с, b + d и d + с столь велики, что значения (5.5)-(5.10) можно отождествлять со значениями соответствующих вероятностей.

Далее, пользуясь теми же формулами, что и в третьей главе, а именно, формулами (3.22), (3.24), (3.27), на основе элементов а, Ь, с и d матрицы сопряженности "релевантность - выдача" определим значения различных энтропий, которые будем интерпретировать в русле документального поиска, например:

Н[х] интерпретируется как "проблематичность" угадывания того, является ли наугад взятый из исходного потока документ релевантным или нет;

Н[х/у] - условная (остаточная) энтропия угадывания того, каким (релевантным или нерелевантным) является очередной документ входного потока, если известен результат оценки его релевантности системой;

у] - количество информации о том, является ли очередной документ входного потока релевантным или нет, содержащееся в среднем в одном сообщении о том, каким (релевантным или нерелевантным) признан данный документ системой.

Предыдущая << 1 .. 36 37 38 39 40 41 < 42 > 43 44 45 46 47 48 .. 64 >> Следующая