Теоретические основы информатики - Аветисян Р.Д.
Скачать (прямая ссылка):
151
ГЛАВА 5же соображений, сформулированных в пункте (2), можно утверждать, что если рассматриваемые термины / и j являются синонимами, то величина
1 ™
-XKX,, l0)r(Xk, J0) т к=і
окажется больше величины
M(r(X, I0 )r(X, J0)),
вычисленной из расчета равномерного распределения случайной точки X на элементах множества V.
Таким образом, мы приходим к заключению, что чем сильнее выражены свойства синонимичности терминов і и j, тем, при прочих равных условиях, большим становится в формуле (6.47) значение уменьшаемой (соображение 2) и тем меньшим - значение вычитаемой (соображение 1). В результате можно утверждать, что большие значения s(i,j) свидетельствуют о том, что свойства синонимичности между терминами і и j применительно к данной базе данных выражены сильнее, и наоборот.
fi4 R-ПРОИЗВЕДЕНИЕ МАТРИЦ. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
В предыдущем разделе мы убедились в том,что значения r(l0, Z0) могут быть использованы в качестве формальной количественной меры при ранжировке различных лексических единиц по степени их семантического родства с пользовательскими запросами. Как мы убедимся ниже, процедуру такой ранжировки можно свести к одной матричной операции, а именно, /^-произведению матрицы размерности т X п на вектор-столбец размерности /і, где т - число терминов, подлежащих ранжировке, п - число документов в базе данных. Эта операция является частным случаем операции /^-произведения матрицы размерности т X п на матрицу размерности п X q. В настоящем разделе мы приведем основное определение /^-произведения матриц и укажем на ряд специфических свойств этой операции.
Пусть а(ах, а2,-.., ап) - произвольный /!-мерный вектор-строка и требуется осуществить его центрирование, т.е. требуется от этого вектора перейти К вектору Д0(а01> а02>---' aOn)' где aOk = ак ~'"а> а 1 "
та -~1<ак (см- предыдущие разделы).
п I- = I
Введем в рассмотрение квадратную матрицу S„[s„ ] порядка //, где
п -1
- при J = і
Slljj = » (6.48)
— при j Ф І. п
152Легко убедиться, что для центрирования произвольного вектора а размерности п достаточно умножить этот вектор на матрицу Sn, т.е. а0 = aS„.
Произведение же произвольной прямоугольной матрицы A[ajj] размерности m X п на матрицу Sn осуществляет центрирование всех m векторов-строк матрицы А. Так, все векторы-строки матрицы Ail = ASn суть центрированные векторы-строки соответствующих строк матрицы А.
Матрица Sn обладает рядом замечательных свойств. Можно показать, например (см. приложение 2), что характеристический многочлен этой матрицы определяется формулой
Sn(X) = XiX-1)""', (6.49)
что свидетельствует о ее вырожденности. Ее ранг равен п- 1. Для произвольного натурального к имеет место
Skn=Sn. (6.50)
Пусть теперь рассматривается вектор-столбец b(b{, /ъ,..-,Ь„) и требуется осуществить его центрирование. Легко убедиться, что для этого достаточно матрицу Sn умножить на этот вектор, т.е. вектор-столбец
b0=S„b (6.51)
и есть результат центрирования вектора-столбца Ь.
Произведение же матрицы Sn на произвольную прямоугольную матрицу B[hjj] размерности п X q осуществляет центрирование всех q векторов-столбцов матрицы В. Так, все векторы-столбцы матрицы SnB суть центрированные векторы-столбцы соответствующих столбцов матрицы В.
Пусть теперь задана матрица А размерности m х л, не содержащая нулевых строк, и требуется осуществить нормирование всех ее m строк. Очевидно, этого можно добиться в результате матричного умножения
Aw = HaA, (6.52)
где Ha [Иа.. ] диагональная матрица порядка m с элементами
/ г-" Г"
(6.53)
Все векторы-строки матрицы Aw суть нормированные векторы-строки соответствующих строк матрицы А.
Если же задана матрица В размерности п х q, не содержащая нуле-
153
ГЛАВА 5вых столбцов, и требуется осуществить нормирование всех ее q столбцов, то этого можно добиться операцией
Bw = BFb, (6.54)
где FeIfhi ] диагональная матрица порядка q с элементами
4 = / ?fi. (6.55)
Рассмотрим пару матриц Л и В размерностей соответственно т X п и и X q, таких, что ни одна из строк матрицы Л и ни один из столбцов матрицы В не является коллинеарным вектору ? (1, 1,..., 1). Это означает, что все векторы-строки матрицы Л() = ASn суть центрированные векторы-строки соответствующих строк матрицы Л, причем матрица Л0 не содержит нулевых строк. Аналогично, все векторы-столбцы матрицы B0 = SnB суть центрированные векторы-столбцы соответствующих столбцов матрицы В, причем матрица B0 не содержит нулевых столбцов. Отсутствие нулевых строк у матрицы Л() позволяет подвергать ее операции построчной нормировки, т.е. рассматривать матрицу
Ao* = HAseASn =HaoA0. (6.56)
Аналогично, отсутствие нулевых столбцов у матрицы B0 позволяет подвергать ее операции постолбцовой нормировки, т.е. рассматривать матрицу
B0w =SnBFSiiB = B0Fbii. (6.57)
Определение
/?-произведением матриц Л и В будем называть матрицу
A* B= H^ASn-SnBFeir (6.58)
Из этого определения следует, что /?-произведение матриц Л и В отличается от обычного матричного их произведения лишь тем, что вместо значений скалярных произведений 1-х строк матрицы Л с j-ми столбцами матрицы В берутся значения коэффициентов линейной корреляции этих векторов.