Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 20

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 14 15 16 17 18 19 < 20 > 21 22 23 24 25 26 .. 119 >> Следующая

Значения Р(Ь|а) можно определить, если известны частоты моно- и динуклеотидов в выборке текстов - f(a) и f(ab), a,b,=T,C,A,G - по формуле
P(b|a) = f(ab)/f(a). (2.1)
Заметим, что мы традиционно выбираем направление 5'—3', хотя можно изучать и цепи с физическим направлением 3'—5'.
Модели с меньшим числом параметров удобнее использовать, но в ряде ситуаций имеет смысл обращаться и к марковским моделям более высоких порядков. Например, известно, что тип третьего нуклеотида кодона связан с типом двух первых нуклеотидов нестрогой зависимостью, которая специфична для организма и типа гена.
В общем случае определение переходных вероятностей для модели порядка п требует знания частот встречаемости слов, состоящих из п+1 символа. Тогда, согласно принципу максимального правдоподобия, значение переходной вероятности
P(b|a,a2.• *ап) = ’ а,’Ь = T,C,A,G-
Вопрос о выборе порядка марковской модели для описания генетического текста рассматривался неоднократно. Было установлено (Garden,1980), что для расшифрованных геномов вирусов MS2, SV40 и ФХ174 можно использовать модели нулевого, второго и третьего порядка соответственно и получать достаточно точные статистические характеристики этих геномов. В работе Блэйсделла (Blaisdell,1985) было показано, что большинство из исследовавшихся таги эукариотических последовательностей может быть представлено марковскими цепями не ниже
2-го порядка, а другие - не ниже 3-го. Исследование нуклеотидных последовательностей Е.coli привело Филлипса и соавт. (Phillips et al.t 1987а,b) к выводу, что частоты встречаемости тетра-, пента-, и гексануклеотидов достаточно хорошо предсказываются марковскими цепями 3-го порядка, хотя в некоторых случаях наблюдаемая частота встречаемости вдвое отличалась от ожидаемой.
Встречаемость ди- и тринуклеотидов. Рассмотрим иерархию марковских моделей последовательностей ДНК. При этом нам потребуются результаты статистического (1-граммного) анализа известных нуклеотидных последовательностей. Эти данные имеют, помимо того, и достаточно интересную биологическую интерпретацию.
Метод 1-граммного анализа, предложенный Шенноном (1963) для изучения лингвистических текстов, сам по себе является эффективным средством исследования нуклеотидных последовательностей (Гусев и др., 1980). Существует тесная связь 1-граммного анализа последовательностей ДНК и моделирования ДНК с помощью марковских цепей. Суть этой связи характерна для понятий анализа и синтеза. Закономерности, обнаруженные путем 1-граммного анализа, можно вложить в модель в виде переходных вероятностей. Результаты, к которым приводит такая модель, могут либо совпасть с данными, полученными на реальном объекте (последовательности), либо стать основой для выявления новых закономерностей, которые в свою очередь могут быть испсль-
зованы для построения модели следующего уровня. Иллюстрация этого положения последует далее.
Прежде всего необходимо сказать о моделях первого порядка и о результатах анализа встречаемости динуклеотидов, которые непосредственно связаны с параметризацией этих моделей.
В работах Нуссинов (Nussinov, 1984 a,b) был выполнен анализ 400 последовательностей ДНК, взятых из разных организмов, что в сумме составило более чем 500 тыс. нуклеотидов. Были подтверждены предварительные данные (Nussinov, 1980 a,b) о том, что в ДНК различных таксономических групп существуют устойчивые асимметрии в частотах встречаемости динуклеотидов. Так, например, в большинстве из 88 прокариотических последовательностей частоты встречаемости динуклеотидов таковы, что имеет место соотношение Г(GC)> Г(АТ)> f(ТА), а в большинстве из 256 эукариотических последовательностей f(GG)> f(GC)> f(GT)> f(ТА)> f(CG).
Можно строго показать, что закономерности встречаемости динуклеотидов не соответствуют модели нулевого порядка. Обозначим через N(ab) число динуклеотидов типа ab, встретившихся в группе последовательностей с суммарной длиной N нуклеотидов. Согласно модели нулевого порядка, ожидаемое число динуклеотидов типа ab равно N*f(a)*f(b), где f(a) и f(b) - частоты мононуклеотидов. Это число обозначим <N(ab)>. Полагая среднеквадратическое отклонение величины N(ab) равным <N(ab)>1/2, вычисляем значения d(ab)=(N(ab)-<N(ab)>)/<N(ab)>1/2.
ТВ СТ СС АБ АА СА 66 ТТ 6А ТС 6С AT AC 6Т ТА С6
<1,291 11,24) 11,18) |1,14) |1,15) 11,15) (1,14) (1,07) (1,04) (1,00) (0,99) (0,85) (0,В4) (0,82) (0,45) (0,42)
а
ТТ АА 6С 66 СА СС СТ Тб ТС 6А А6 С6 AT AC 6Т ТА
(1.22) 11,20) (1,13) 11,17) (1,04) (1,02) (1,01) (1,01) (1,01) (0,97) (0,941 (0,92) (0,91) (0,90) (0,84) (0,79)
6
СС 66 ТТ АА Тб СТ АБ СА 6А 6С ТС AC AT 6Т ТА СБ
(1.22) (1,19) (1,14) 11,14) (1,14) (1,12) (1,09) (1,07) (0,99) (0,99) (0,94) (0,89) (0,88) (0,85) (0,79) (0,58)
Предыдущая << 1 .. 14 15 16 17 18 19 < 20 > 21 22 23 24 25 26 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed