Теоретические основы информатики - Аветисян Р.Д.
Скачать (прямая ссылка):
Пусть при оценке степени истинной и/или автоматной релевантности каждого документа информационному запросу шкала возможных значений релевантности не ограничивается двумя значениями (1 - релевантен, 0 - не релевантен), как это имело место при рассмотрении обычных подмножеств X и Y множества N. Тогда мы будем иметь дело с нечеткими (размытыми) подмножествами множества N [8]:
нечетким подмножеством истинной релевантности будем называть нечеткое подмножество Х{\>) множества N с функцией принадлежности V = v(z'), где v(/) - мера истинной релевантности /-го документа информационному запросу;
нечетким подмножеством автоматной релевантности будем называть нечеткое подмножество K(X) множества N с функцией принадлежности X = X(i), где X(i) - автоматная мера соответствия /-го документа информационному запросу.
Иногда нечеткие подмножества Ar(V) и K(V) будем называть проще -нечеткими подмножествами соответственно релевантности и выдачи.
Множество Т, состоящее из всех терминов, которые хоть раз встретились в каком-либо документе базы данных, будем называть множеством терминов базы данных. Пусть множество T состоит из m элементов t є Т. Тогда, как и в случае множества документов N, 2"' подмножеств множества T образуют булеву алгебру. Так же, как и в случае со множеством N, на множестве T могут быть определены различные нечеткие подмножества с различными функциями принадлежности.
Каждому элементу s є N множества документов можно поставить в соответствие одно из подмножеств множества T такое, которое состоит из элементов множества T - терминов, хоть раз встретившихся в рассматриваемом документе.
На множестве терминов T можно определить также нечеткие подмножества, соответствующие различным элементам множества документов. Например, каждому документу можно поставить в соответствие нечеткое подмножество множества T с функцией принадлежности а = а(;'), равной числу встречаемости і-го термина в рассматриваемом документе.
Аналогично, каждому элементу t є T множества терминов можно поставить в соответствие одно из 2" подмножеств множества N такое,
103
ГЛАВА 5которое состоит из элементов этого множества - документов, содержащих рассматриваемый термин.
На множестве документов N можно определить также нечеткие подмножества, соответствующие различным элементам множества терминов Т. Например, каждому термину можно поставить в соответствие нечеткое подмножество множества N с функцией принадлежности у = у('), равной числу встречаемости рассматриваемого термина в /-M документе.
На этапах как проектирования, так и эксплуатации АСДП часто возникает необходимость в оценке степени близости двух подмножеств (обычных н/или нечетких) одного и того же множества. Для такой оценки в ряде случаев оказывается удобным оперировать векторными представлениями этих подмножеств, т.е. векторами, находящимися во взаимно однозначном соответствии с этими подмножествами [ 1].
Рассмотрим множество Acq элементами а є А. Пусть BOA-некоторое обычное подмножество этого множества и в (/-мерном пространстве векторов определен вектор b такой, что значение /-Й его координаты равно единице, если /-й элемент множества А принадлежит подмножеству В, и нулю - в противном случае. Тогда можно утверждать, что установлено взаимно однозначное соответствие (отображение) между 2'< подмножествами множества А и 2'' вершинами (/-мерного единичного куба. В частности, пустому подмножеству множества А соответствует начало координат, а подмножеству B=A- вершина куба с координатами (1,1, ..., 1).
Пусть теперь ?(?) - некоторое нечеткое подмножество множества А с функцией принадлежности ? = ?(/), где ?(/) - мера принадлежности /-го элемента множества А подмножеству ?(?). В (/-мерном пространстве определим вектор b такой, что значение его /-Й координаты равно ?(/). Тогда можно утверждать, что установлено взаимно однозначное соответствие (отображение) между нечеткими подмножествами множества А и точками (/-мерного пространства.
Заметим, что обычные подмножества BOA являются частными случаями нечетких подмножеств с функцией принадлежности ? = ?(/), где ?(/) равно единице, если /-й элемент множества А принадлежит данному обычному подмножеству, и нулю - в противном случае.
Приведенные здесь отображения позволяют в дальнейшем вместо обычных и размытых подмножеств множества Acq элементами рассматривать соответствующие им (/-мерные векторы. Так, при рассмотрении подмножеств множества документов N можно говорить о векторах релевантности и выдачи. Аналогично, при рассмотрении подмножеств множеств терминов T можно говорить о векторах, представляющих различные документы.
В последующем изложении векторы, представляющие обычные подмножества, иногда будем называть бинарными.
104ЭНТРОПИЙНАЯ МОДЕЛЬ ДОКУМЕНТАЛЬНОГО ПОИСКА
В третьей главе мы убедились в эффективности использования аппарата статистической теории информации и, в частности, понятия энтропии при анализе работы каналов связи. Последние, будучи несемантическими компонентами сети, призваны объединить звенья сети - документальные системы, которые имеют отчетливую семантическую природу. В рассматриваемом смысле представляется заманчивым разработать энтропийную модель документального поиска, с тем, чтобы математический анализ сети в целом (включая се звенья семантической природы) осуществить в рамках единой статистической теории информации.