Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 23

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 17 18 19 20 21 22 < 23 > 24 25 26 27 28 29 .. 119 >> Следующая

где fa, fb - частоты мононуклеотидов в соответствующей выборке (табл. 2.2).
Ясно, что величины Р(Ь|а), рассчитанные для общей выборки последовательностей Е.со1i (табл.2.ЗА), должны занимать некоторое промежуточное положение по отношению к соответствующим величинам Р(b|а) для кодирующих и некодирующих областей (табл.2.ЗБ,2.ЗВ), что, как нетрудно убедиться, имеет место. Решить вопрос о возможности статистически значимого совпадения параметров корреляции соседних нуклеотидов для кодирующих и некодирующих областей можно при помощи вычисления статистических критериев.
Определим величины tHK и tKH (индекс к соответствует кодирующим областям, а индекс н - некодирующим) согласно формулам
Чк = Е [N„(ab) - NH(a)*PK(b|a)]/[NH(a),Pii(b|a)]1/2,
" ? [NK(ab) - NK(a),PH(b|a)]/[Nii(a)*PH{b|a)],/2.
Если характер корреляции соседних нуклеотидов в кодирующих и не-кодир,тощих областях одинаков, то величины tHK и tKH должны иметь pacnpt целение хи-квадрат с двенадцатью степенями свободы (Bil'ingsley,1961). Фактические значения tHK и tKH равны 1556 и 1568 соответственно. Это позволяет отвергнуть гипотезу о совпадении характеристик корреляции с уровнем значимости 10~4 и сделать вывод, что в одном и том же организме различные функциональные области первичной структуры ДНК должны описываться разными статистическими моделями.
Далее стало ясно, что полученная марковская модель кодирующей об-
ласти не учитывает еще некоторые важные закономерности. Дело в том, что частоты встречаемости моно- и динуклеотидов в кодирующих областях зависят от позиции, отсчитываемой относительно инициирующего кодона. Остановимся на этом подробнее.
Множество всех возможных позиций сгруппируем по "рамкам". Позиции 1+Зк, к=0, 1,.., т.е. первые позиции кодонов, составляют первую рамку. Позиции 2+Зк, к=0, 1,... образуют вторую рамку, а позиции З+Зк, к=0,1,... - третью. Динуклеотиды будем относить к первой рамке, если их первые нуклеотиды расположены в первой рамке и т.д.
Тогда частота встречаемости нуклеотида а в i-й рамке f‘a -это отношение числа нуклеотидов типа а к общему числу нуклеотидов -N/3 из данной рамки. Значения f‘a, i=1,2,3 представлены в табл.2.4. Возможная случайная ошибка в определении этих частот оценивается величиной 0,008. В табл. 2.4 подчеркнуты те значения частот f'a, которые наиболее отклоняются от среднего значения частоты fa в кодирующих областях.
Таблица 2.4 Позиционные частоты нуклеотидов
Рамка 1 Т 1 с 1 А [ G
1 0,140 0,240 0,249 0,371
2 0,289 0,255 0,311 0,175
3 0,263 0,288 0,180 0,270
Е 0,231 0,251 0,246 0,272
Отмеченные отклонения могут быть связаны с различными факторами. Так, уменьшение содержания Т в первой рамке и А в третьей обусловлено запретом на кодоны ТАА, TGA и TAG. Увеличение содержания G в первой рамке и С в третьей подтверждает указанное ранее (Shepherd, 1981) предпочтительное использование кодонов типа RNY (R-пурин, Y-пиримидин), которое связывается с особенностями архаического генетического кода. За относительное увеличение содержания Т во второй рамке ответственны периодические серии синонимических кодонов, кодирующих неполярные аминокислотные остатки, входящие в состав альфа-спиралей белковых молекул (Zhurkin,1981). Наконец, увеличение содержания А и уменьшение содержания G во второй рамке обусловлено тем, что 14 кодонов, имеющих А во второй позиции, соответствуют 7 аминокислотам, в то время как 15 кодонов, содержащих во второй позиции G, кодируют только 5 различных аминокислот.
Неравномерное распределение частот встречаемости нуклеотидов по позициям противоречит модели белок-кодирующей нуклеотидной последовательности в виде однородной марковской цепи, поскольку такая модель предсказывает одинаковые частоты появления нуклеотидов одного и того же типа в любой позиции (см.табл.2.1). Отсюда вытекает, что первоначальная модель может быть уточнена с помощью позиционно зависимых статистик.
Позиционные модели кодирующих областей. Обозначим число динуклеотидов типа ab, которые встретились в i-й рамке через N,(ab). Рассмотрим простейшую позиционную (неоднородную) модель нуклеотидного текста кодирующей области, в которой соседние нуклеотиды независимы, но вероятности их появления различны в разных позициях относительно инициирующего кодона. Согласно этой модели, ожидаемое число динуклеотидов типа ab, которое должно встретится в рамке с номером i, будет равно N-f‘а*f1 *1 ь/3 для i=l,2 и N*f3a*f'b/3 для i=3.
Гипотезу об адекватности простейшей позиционной модели можно проверить с помощью вычисления величин d,(ab) [Ni(ab)-<N1(ab)>]/[<N,(ab)>,/2], для i=l,2,3 соответственно. Если эта модель справедлива, то величины
t, = ? [d^ab)]2, a,b = T,C,A,G
должны иметь распределение хи-квадрат с девятью степенями свободы. Реальные значения t, для i=l,2,3 равны 1504, 3719 и 246 соответственно. Отсюда следует, что предполагаемая модель с уровнем значимости 10“* неточна и что опять-таки соседние нуклеотиды с вероятностью 0,9999 не могут считаться независимыми.
Предыдущая << 1 .. 17 18 19 20 21 22 < 23 > 24 25 26 27 28 29 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed