booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 45

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 39 40 41 42 43 44 < 45 > 46 47 48 49 50 51 .. 119 >> Следующая

'-*¦ V1 ^—1
г ~Л„ ...................................... ' ""_j\
• — ¦
~1 "— I II, 'i—1 I ' г-^—11 ill j>"
ZOO MO 600 800
FCLEXX.(f-m)
Рис. 3.5. Графики функций-индикаторов кодирующих областей для шести рамок считывания последовательности ECLEXX
1,2,3,-1,-2,-3 - номера рамок, V=(4,15)
вдоль последовательности фрагмента являются функциями-индикаторами кодирующих областей. Кроме того, инвертирование рассматриваемой последовательности позволяет применить тот же алгоритм для обнаружения кодирующих областей на комплементарной нити ДНК. Таким образом, исследование нуклеотидной последовательности может происходить сразу в шести возможных рамках считывания генетического кода.
На рис.3.5 представлены графики величин Р(К|Z),i=l,2,3, полученных для последовательности ECLEXX (обозначение, принятое в базе данных EMBL) в том случае, когда размер контекста равен 3, а шмрина окна - 15 кодонам. Известно, что фрагмент (102,707) последовательности ECLEXX является умеренно экспрессируемым геном белка 1ехА.
Числа, стоящие по горизонтали, указывают количество нуклеотидов от начала последовательности. Масштаб вертикальной оси соответствует интервалу (0,1). Здесь и на последующих рисунках на уровне 0,5 сплош-
4 Заказ № 4327 Q7
ными линиями отмечены цепочки триплетов, не содержащие терминирующих кодонов. Они начинаются от длинных или коротких вертикальных штрихов, которые означают триплеты ATG или GTG соответственно, и заканчиваются смещенными вниз длинными штрихами, которые указывают положения терминирующих триплетов.
Таблица 3.6
Значения эмпирической вероятности кодирования для известных генов E.coli
Ген Число Значение Название Число Значение
кодонов индикатора кодонов индикатора
ala S Высокоэкспрессируемые гены 141 0,922
8?4 0,867 rpl К
асе E 629 0,909 rpl L 120 0,881
асе F 474 0,928 гро В 1341 0,915
atp A 512 0,909 гро С 1406 0,948
atp E 78 0,955 rps A 555 0,939
atp D 459 0,916 rps В 240 0,939
dna К 637 0,924 rps С 79 0,922
gin S 550 0,921 rps D 132 0,832
giy S 302 0,928 rps G 80 0,912
Ipp 377 0,914 rps J 102 0,910
omp A 345 0,949 rps L 123 0,887
omp F 361 0,907 rps T 86 0,820
rec A 352 0,919 rps U 70 0,921
rpl A 233 0,908 tsf 282 0,942
rpl J 164 0,873
ara С Низкоэкспрессируемые гены 1021 0,837
291 0,697 lac Z
aro F 355 0,827 lex A 201 0,777
asn D 366 0,813 mal F 513 0,847
asn A 329 0,866 mel В 468 0,612
dam 277 0,691 met L 808 0,903
deo R 250 0,695 pab В 452 0,750
dna G 579 0,589 pfk В 307 0,647
dxi 332 0,831 pur F 503 0,861
fol 158 0,828 РУГ В 310 0,814
fum A 547 0,825 rnh 154 0,739
gal R 342 0,689 thr A 819 0,725
gyr В 356 0,679 trp S 333 0,909
lac I 359 0,768 tsr 535 0,823
Изложенный подход не дает пока ответа на два естественных вопроса: во-первых, следует ли стремиться использовать контекстные вероят-
ности максимально возможного порядка, или же за счет "эффекта насыщения" увеличение контекста выше определенного предела практически теряет смысл; во-вторых, существует ли более компактная, чем график функции, характеристика, которая позволила бы судить о том, является ли данная открытая рамка белок-кодирующей или нет.
Сравнительное исследование распределений значений величин Pk.(K|Z), i=0,1,2,3 для выборок кодирующих и некодирующих областей
показало следующее. Плотности d^.,(Р|К) и dki(P|H) этих распределений (в случае i=H) в значительной степени перекрывались, что свидетельствовало о нецелесообразности использования величин Рк0(К|Z) в качестве индикатора в алгоритме распознавания. В случае i=l указанные плотности концентрировались вблизи 1 и 0 соответственно. При i=2 зти функции еще более стягивались к краям области определения. В случае i=3 поведение функций плотности незначительно улучшалось (приближаясь к идеалу - двум дельта-функциям в единице и в нуле) по сравнению со случаем i=2. Таким образом, в последовательности функций плотностей наблюдался эффект насыщения и следовало предполагать, что алгоритмы распознавания, использующие контекстные частоты с параметрами i=2 и i=3, будут давать практически одинаковые результаты (что и имело место в действительности).

Предыдущая << 1 .. 39 40 41 42 43 44 < 45 > 46 47 48 49 50 51 .. 119 >> Следующая