Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 39

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 33 34 35 36 37 38 < 39 > 40 41 42 43 44 45 .. 119 >> Следующая

Поэтому остановился на утверждении, что наличие ОРС является необходимым, но недостаточным условием для идентификации кодирующей области в прокариотах. Для повышения надежности предсказания
Таблица 3.2 Встречаемость кодонов в трех рамках
Кодон Номер Кодон Номер Кодон Номер Кодон Номер
рамки рамки рамки рамки
1 1 2 3 1 1 2 3 1 2 3 1 1 2 3
ТТТ 18 И 15 ТСТ 12. 11 13 TAT 17 10 16 TGT 15 11 17
ттс 18 12 12 ТСС 12 12 13 TAC 17 11 16 TGC 15 11
ТТА 12 1? 9 ТСА 12 1? lb TAA 0 15 28 TGA 0 16 29,
TTG 12 22 11 TCG 12 22 8 TAG 0 20 10 TGC- 13 20 21
стт 12 11 15 ССТ 13 11 13 CAT 10 11 16 CC-T 8 11 17
стс 12 12 12 ССС 13 12 13 CAC in 12. 16 CGC 8 12 2?
СТА 12 17 9 ССА 13 1? 15 CAA 20 17 28 CGA 8 12 2?
CTG 12 22 11 CCG 13 22 8 CAG 20 22 10 CGG 8 22 21
ATT 15 14 14 ACT 15 14 12 ATT 22 15 15 AGT 12 15 16
АТС 1Ь 1Ь 11 ACC lb lb 12 ACC 22 16 15 AGC 1? 16 2П
АТА 1Ь 21 8 АСА lb 21 14 AAA 33 2.2. 26 AGA 8 22 27
ATG 17 27 10 ACG lb 27 8 AAG 33 29 9 AGG 8 29 2C
GTT 1? 10 15 GCT 22 10 12. GAT 28 7 16 GGT 21 Q 17
GTC 17 11 12 GCC 22 1 1 13 GAC 28 7 15 GGC 21 in 2?
X J.
GTA Г/ 1Ь 9 GCA 22 lb lb GAA 30 10 28 GGA 21 14 29
GTG 17 1У И GCG 22 19 8 GAG 30 13 10 GGG 21 18 21
нужно привлечь результаты поисков сигнальных последовательностей ка предполагаемых 5' границах или данные о статистических закономерностях внутри ОРС, т.е. по существу надо использовать метод поиска по сигналу или метод поиска по содержанию, или их комбинацию, ориентируясь на ОРС как на нулевое приближение для разметки последовательности ДНК. В случае эукариот роль ОРС еще меньше. Здесь методы поиска по сигналу и по содержанию применяются в комбинации - отыскиваются возможные эк-зон-интронные границы и проводится статистический анализ возможных транслируемых экзснов.
Далее, в разделе 3.2 мы остановимся на методах универсального типа, пригодных для поиска кодирующих областей любых организмов. Они основаны на том предположении, что некоторые общие черты первичной структуры кодирующих областей можно описать простой моделью. Эти мето-
ды хронологически появились раньше других (Shulman et al., 1981; Shepherd, 1981) и продолжают развиваться (Fichant, Gautier, 198?). Значительное достоинство этих подходов в том, что их использование не требует предварительного изучения так называемой обучающей выборки из последовательностей ДНК рассматриваемой таксономической группы.
В разделе 3.3 будут рассмотрены методы, связанные с особенностями триплетной структуры кодирующих областей в разных организмах и использованием феноменологических моделей.
Таблица 3.3 Встречаемость нуклеотидов в трех рамках
Номер рамки 1 т ! с 1 А | G
1 18,35 19,32 27,19 35.14
2 23,82 24,59 31,73 19,85
3 25,48 25,48 23,77 25,27
Ср.значение 22,55 23,13 27,56 26,75
Наконец, в разделе 3.4 говорится о методах распознавания, в которых используются модели кодирующих и некодирующих участков в виде марковских цепей специального вида.
3.2. РАСПОЗНАВАНИЕ КОДИРУЮЩИХ ОБЛАСТЕЙ НА ОСНОВЕ УНИВЕРСАЛЬНЫХ МОДЕЛЕЙ
Использование статистик моно-,ди- и тринуклеотидов. В первых работах по распознаванию кодирующих областей (Shulman et al.,1981; Shepherd,1981) преследовалась ограниченная цель - предложить компьютерную процедуру для определения рамки считывания генетического кода в известной кодирующей области. Вопрос этот скорее теоретический, так как практически определение рамки считывания может вызывать некоторые затруднения только в случае эукариотического генома. Но интересно, что ухе здесь в значительной степени был очерчен круг понятий и подходов, которые получили развитие в дальнейших исследованиях.
В упомянутой выше работе Шульмана было предложено три способа определения истинной кодирующей рамки. В первом из них использовалось предположение, что наблюдаемые в этой рамке частоты кодонов наиболее уклоняются от равновероятного распределения по сравнению с двумя другими рамками. В качестве меры уклонения использовалась величина
64
D = Е (f.-m.)Vm,. i=l
Здесь f. и m, - наблюдаемая и ожидаемая частота i-ro кодона
соответственно. Второй способ был связан с предположением, что распределения частот динуклеотидов в различных рамках различаются своими свойствами. А именно считалось, что распределение динуклеотидов, расположенных в третьей рамке, т.е. объединяющих нуклеотид в третьей по-зиции предыдущего кодона и нуклеотид в первой позиции последующего кодона, более близко к равновероятному, чем распределение нуклеотидов двух других рамках. Наконец, третий способ предусматривал определение частот встречаемости гуанина в трех позициях кодона, имея в виду, чтс в первой рамке он должен встречаться чаще, чем в двух других (см. табл. 3.3).
Предыдущая << 1 .. 33 34 35 36 37 38 < 39 > 40 41 42 43 44 45 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed