Научная литература
booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 59

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf
Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 .. 64 >> Следующая


,-(i0j) = r(j{hj) = rl. (6.44)

Из (6.43) и (6.43а) с учетом (6.44) приходим к

M(r(I,Z)-r(J,Z)) = ?(r(l0,Z0)-r(J0,Z0)), (6.45)

где коэффициент

? = ,ViZ0, Z), (6.46)

согласно приведенным выше соображениям, всегда положителен.

Исходя из положительности коэффициента ? и с учетом (6.45) легко заключить, что количественной мерой соответствия того или иного термина пользовательскому запросу может служить соответствующее ему значение / (/о, Z0). Таким образом, если не в абсолютных метрических единицах, то хотя бы в плане сравнительной оценки эти значения являются своеобразной опосредствованной (транзитивной) оценкой значений г(/, Z).

149

ГЛАВА 5 Не следует забывать, что формула (6.44) верна лишь в контексте конкретно рассматриваемой нами задачи. На самом же деле при переходе в рамках фиксированных естественных и/или искусственных ЯЗЫКОВ ОТ ОДНИХ терминов К другим конкретные значения /¦(/(), I) могут отклоняться от среднего значения rL, присущего данному языку.

Вместе с тем, поскольку нас интересуют не конкретные значения тех или иных рассматриваемых нами величин, а лишь сравнительная их оценка, то в силу взаимных компенсаций упомянутых выше отклонений их наличие не приводит к сколь-либо серьезным негативным последствиям при рассмотрении значений r(/0, Z0) и r(J0, Z0) вместо значений г(/, Z) и r(J, Z). По крайней мере, об этом свидетельствуют результаты промышленной эксплуатации микротезаурусов, где термины ранжируются с использованием описанного выше механизма.

Теорема синонимии

Выше уже говорилось о роли предварительно подготовленных дес-крипторных словарей, тезаурусов при эксплуатации автоматизированных систем документального поиска. Важное место при подготовке этих словарей занимает задача формирования синонимических рядов, с помощью которых осуществляется терминологическое наращивание пользовательских запросов.

Традиционно терминологические пособия составлялись до начала эксплуатации АСДП, без учета того, с какими именно базами данных приходилось работать пользователям. Со временем специалисты убедились в необходимости адаптации этих пособий к конкретным предметным областям. Появились так называемые отраслевые словари, в процессе эксплуатации которых специалисты обнаружили необходимость дальнейшей их корректировки с учетом специфики конкретных баз данных. Составление этих пособий неразрывно связано с огромными затратами интеллектуального труда специалистов-лингвистов. Что же касается адаптации этих пособий к тем или иным поисковым средам, то эту работу нельзя выполнять без помощи специалистов по рассматриваемым предметным областям. Непременное присутствие при этом элементов субъективизма, с одной стороны, и большие затраты интеллектуального труда - с другой, привели к необходимости формализовать процедуру подготовки синонимических рядов с тем, чтобы частично или полностью поручить эту работу ЭВМ. Возникла необходимость разработки формальных количественных мер по оценке степени синонимичности различных терминов. Это довольно трудная задача, если учесть, что само определение "слово, совпадающее или близкое по значению с другим словом" носит подчеркнуто семантический характер, трудно поддающийся формализации. Для решения этой задачи введем в рассмотрение несколько иное определение синонимии, которое вкупе с доказанной нами теоремой синонимии для

150 «-мерного куба и будем использовать при разработке формальной количественной меры синонимичности слов.

Пусть мы располагаем некоторой конкретной базой данных и применительно к этой базе требуется оценить степень синонимичности терминов і и у. Подмножества документов, содержащие эти термины, обозначим соответственно через /() и J0, а формальную количественную меру степени их синонимичности - через s(i,j). При определении последней будем исходить из соображений, на которые ранее уже обратили внимание специалисты-лингвисты:

1) шансов на то, что в рамках одного и того же вторичного документа встретятся два слова-синонима, меньше обычного, так как при подготовке этих документов их авторы или референты обычно придерживаются какого-либо одного из терминов данного синонимичного ряда.

2) если некоторая пара терминов і и х встречается в документах чаще обычного, а термин j является синонимом термина і, то следует ожидать, что чаще обычного будут встречаться также термины j и х. Действительно, если, например, термины і и j выражены именами существительными и прилагательное х является характерным описателем термина і, то оно будет также характерным описателем термина у.

Формальную количественную меру синонимичности s(i,j) терминов і и j определим как

1 т 1

S(U) = -I r(Xk, I0MXkJ0)---r(I0,J0), (6.47)

тк=і 1-1

где

п - число документов в рассматриваемой базе данных;

т - число терминов в инверсном списке, т.е: число терминов, которые хоть раз встретились в каком-либо одном или более документах рассматриваемой базы данных;

Xk - подмножество документов, содержащих к-й термин инверсного списка.

Из теоремы синонимии следует, что в гипотетическом случае, когда случайная точка X имеет равномерное распределение на элементах множества V, для любой фиксированной пары терминов і и j величина s(i, j) равна нулю. В реальных же условиях, в силу наличия определенных лексико-семантических корреляционных связей, значения s(i,j) могут отличаться от нуля. Так, если I0 и J0 случайные точки, имеющие равномерные распределения на элементах множества V, то в силу замечания к утверждению 3 имело бы место M(r(I0, J0)) = 0. В реальных же условиях, в силу соображений, сформулированных в пункте (1), можно утверждать, что если термины і и j синонимы, то значения r(I0, J0) склоняются к отрицательным величинам, т.е. M(r(I0,J0)) < 0. В силу же
Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 .. 64 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed