Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 24

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 18 19 20 21 22 23 < 24 > 25 26 27 28 29 30 .. 119 >> Следующая

Возникает естественный вопрос, зависят ли от позиции параметры корреляции соседних нуклеотидов? Проведем исследование "от противного", т.е. проверим противоположную гипотезу о совпадении параметров корреляции. Зададим величины tu и tj( по формуле
tJt = Е [N,(ab) - N1(a)-PJ(b|a)]/[N1(a)-PJ(b|a)]1/2,
где i и j являются индексами рамок. Если характер зависимости соседних нуклеотидов в рамках i и j одинаков, то величины t(J и t должны иметь распределение хи-квадрат с двенадцатью степенями свободы. Поскольку t12=20265, t21=946, t23=7319, t32=12230,
t31=11544, t13=9118, то с уровнем значимости 10"4 можно утверждать, что зависимость между соседними нуклеотидами в разных позициях проявляется по-разному.
Для того чтобы учесть в новой модели зависимость от позиции параметров корреляции соседних нуклеотидов, определим три матрицы переходных вероятностей Р.(Ь|а), по формулам
Р,(Ь|а) = Nj(ab)/Ni(a), a,b=T,C,A,G, i=l,2,3.
Реальные численные значения приводятся в табл.2.5 для i ответственно.
Таблица 2.5 Позиционные переходные вероятности
1,2,3 со-
Первый
иуяяео'
тид
i-i
is2
i=3
Второ! иухлеотнд
Т I С I Д I 6 IT|CIAI6lT|CIA|6
0,384 0,264 0,207 0,143 0,246 0,253 0,100 0,401 0,148 0,228 0,236 0,392
0,329 0,167 0,271 0,233 0,240 0,276 0,173 0,311 0,146 0,201 0,257 0,399
0,329 0,198 0,378 0,092 0,212 0,260 0,325 0,206 0,128 0,239 0,261 0,367
0,199 0,264 0,331 0,207 0,417 0,411 0,051 0,120 0,137 0,296 0,241 0,326
Еще раз обратившись к использованию критерия хи-квадрат, можно показать, что во всех трех рамках параметры корреляции значимо отли-чаютя от параметров корреляции соседних нуклеотидов в некодирующих областях (на уровне значимости 10“*). Этот факт довольно интересен, так как свидетельствует о том, что структура кодирующей области, адаптированная эволюцией к выполнению функции передачи генетической информации, во всех звеньях (позициях) испытывает специфическое селективное давление на подбор соседних нуклеотидов, и это давление проявляется с большей силой, чем наблюдавшиеся нами ранее тенденции предпочтения определенных соседей в некодирующих областях.
Отметим также, что между позиционными переходными вероятностями и позиционными мононуклеотидными частотами существуют связи, аналогичные уравнениям (2.2),
2 Гla*Р‘(b|а) = , i =1,2 , ? f3a •P3(b|a) = f'b.
Таким образом, определена неоднородная марковскую цепь первого порядка с периодически повторяющимися переходными матрицами Р‘(Ь|а) (и позиционно-зависимыми финальными вероятностями f‘a, значения которых совпадают со значениями позиционных частот встречаемости нуклеотидов).
Следует подчеркнуть, что в классе неоднородных марковских моделей, так же как в классе однородных, можно рассматривать марковские Цепи различных порядков. Например, простейшая неоднородная цепь Маркова нулевого порядка в данном случае будет задаваться тремя наборами вероятностей появления нуклеотидов каждого типа (в трех позициях кодона).
В работе Бородовского и др.(1986b) было показано, что распределение частот встречаемости кодонов может быть удовлетворительно предс-
казано на основе неоднородной модели первого порядка для кодирующей области. В то же время попытка использовать для этой цели однородную модель, описывающую геном в целом (Almagor,1983), не привела к успеху. Этот результат является дополнительным аргументом в пользу того, что динуклеотидные корреляции в кодирующих областях являются вторичным признаком по отношению к явлению селекции кодонов, причины которого обусловлены особенностями механизма трансляции.
В ряде ситуаций представляют интерес неоднородные марковские модели и более высокого порядка. Например, неоднородные модели второго порядка используются в алгоритме распознавания кодирующих областей (гл.З). Контекстная зависимость встречаемости третьего нуклеотида кодона от нуклеотидов 5'-соседнего кодона, специфичная у генов с разной степенью экспрессии (Shpaer, 1986; Бородовский и др.,1988), означает, что для моделирования первичных структур генов с высокой и низкой экспрессией требуются неоднородные модели третьего порядка.
В заключение подчеркнем, что, разумеется, при увеличении порядка марковской цепи и введении таких усовершенствований, как позиционные переходные вероятности, точность моделей будет повышаться. Однако ограниченность объема экспериментального материала делает практически бессмысленными попытки применения моделей наивысших порядков, т.е. в каждом конкретном случае необходимо выбрать приемлемый, с точки зрения поставленной задачи, порядок и тип модели.
В следующем разделе мы остановимся на таких, активно обсуждаемых в настоящее время вопросах, как использование марковских моделей генетических текстов для предсказания частот встречаемости слов и формирования "словарей".
Предыдущая << 1 .. 18 19 20 21 22 23 < 24 > 25 26 27 28 29 30 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed