Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 26

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 20 21 22 23 24 25 < 26 > 27 28 29 30 31 32 .. 119 >> Следующая

К-
1, если первые n-i букв и последние n-i букв слова W совпадают
0, в противном случае
выявление аномально часто и редко встречающихся слов может производиться и с помощью метода "случайного перемешивания", основанного на перетасовке букв исходного текста (Karlin et al.,1983)).
Рассматривается текст фиксированной длины п, в котором вероятности появления букв на произвольном месте i равны i i i i
n =p =p =p = 0,25. Зафиксируем некоторое слово W, например АТА. и А Т G С
1 2 j
рассмотрим распределение {р (п),р (п),...}, где р =р (п) - вероят-
W W j W
ность встретить слово W в тексте длиной п ровно i раз. Для вычисле-
ния дисперсии числа появлений слова W в тексте длины п мы использовали представление числа появлений слова W в виде суммы случайных величин (Pevzner et al.,1989а).
Пусть X - случайная величина, характеризующая число появлений
слова W в тексте фиксированной длины п (для удобства вычислений рассматривается кольцевая молекула длины п). Рассмотрим случайные величины (рис.2.4):
п
Очевидно, что Х= Е х.. Математическое ожидание и дисперсия случайной i=l
величины х, легко вычисляются
М(х,) = p{Xj =1}* 1 + р{х,=0}*0 = l/s* ,
D(Xj )=M(x.2)-М(х.)*М(Xj) = р{х(2=1} •l~l/s2k = (l/sk)• (l-l/sk)
(здесь k - длина слова W, a s - число букв в алфавите, в данном случае s=4). Очевидно, что
Вывод формулы для DX достаточно сложен (Pevzner et al.,1989а), и мы не будем приводить его полностью. Конечная формула имеет вид
1, если на i-м месте в тексте стоит слово W
0, в противном случае
Р и с. 2.4.Для слова W=ATA и кольцевой молекулы длины 12, представленной на рисунке: х , х9, х =1, при этом
r(3,7)'=4, ‘’rdVin’-fe
п
МХ=М Е Х|=п/зк. i=l
DX=n/sk(2Kw( 1/s)-l-(2k-l)/sk),
(2.4)
где Kw(x) - автокорреляционный многочлен слова W.
Таким образом, при оценке значимости отклонений от средних значений к обычно используемому выражению для дисперсии n/sk следует добавлять член
n/sk(2Kw(l/s)-2-(2k-l)/sk),
который зависит от вида слова W. Так, например, для двухбуквенных слов
D = -- + --(2-2-3/16) = (п/16)*(13/16),
АТ 16 16
D,,= -- + --(2.5-2-3/16) = (п/16)'(21/16)
АА 16 16
(К*х-1. К4А=1,25).
Аналогично для трехбуквенных слов, в качестве дисперсии вместо значения п/64 следует брать
DATG=(n/64)-(59/64), DATA=(n/64)*(67/64), DiiA=(n/64)-(107/64).
Из приведенных примеров видно, что при больших значениях автокорреляционного многочлена величина дисперсии распределения числа встреч слова в тексте может значительно отличаться от величины его математического ожидания. Таким образом, использование при оценке значимости отклонений встречаемости слов величины MX1/2 (Brendel et al.,1986; Beckmann et al.,1986) может приводить к смещенным результатам.
Для произвольных вероятностей появления букв {p(A),p(T),p(G),p(C)}, таких, что p(A)+p(T)+p(G)+p(C)=l формула (2.4) переписывается в виде
DX=(n/pw)*(2Kw(p)-l-(2k-l)/pJ . (2.5)
Здесь
к к-1 1
р„= П p(wj, Kw(p) = 1+ Е к,- П p(Wj), (2.6)
i=l 1=1 i=l
где w, - i-я буква слова W, kt - 1-й коэффициент автокорреляционно-
го многочлена.
Оказывается, что для марковских цепей дисперсия частоты встречаемости слова также описывается формулой, аналогичной (2.5). На основании формулы (2.5) для марковских цепей были сформированы словари некоторых генетических текстов (Pevzner et al.,1989а). Показано, что
учет самопересечений слов меняет величину стандартного отклонения 7. в некоторых случаях заставляет отказаться от утверждения о значимости некоторых слов (или, наоборот, принять такое утверждение). Таким образом, учет самопересечений слов дает более точную оценку значимости отклонений частот встречаемости слов от средних значений.
Разнесенные 1-граммы и предсказания частот встречаемости слов. При анализе генетических текстов функционально значимыми могут оказаться не только непрерывные, но и разнесенные слова (мы будем называть их разнесенными 1-граммами). В качестве примеров можно привести
сайт узнавания рестриктазы Bgll: GCC---------GGC (5 нуклеотидов между
разнесенными последовательностями GCC и GGC могут быть произвольными) или классические блоки Прибноу и Гильберта: TTGACA—...—ТАТААТ (в этом случае расстояние между блоками может варьироваться). Возникает вопрос о предсказании частот встречаемости разнесенных 1-грамм.
Предыдущая << 1 .. 20 21 22 23 24 25 < 26 > 27 28 29 30 31 32 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed