Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 48

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 119 >> Следующая

На рис.3.6 представлены графики величин Р(k,|Z), 1=1,2,3, полученных для последовательности ECRECA при V=(l,32). Рис. 3.6, а,б,в соответствуют первой, второй и третьей рамкам считывания. Числа, стоящие по горизонтали, дают отсчет количества нуклеотидов от начала последовательности. Вертикальный масштаб соответствует интервалу (0,1).
Таблица 3.8
Значения р и s, полученные для генов агаС, 1ехА, гесА
Порядок
марковской
модели
агаС I lexA I гесА
Пара-
метр
Число кодонов в окне
16 I 32 I 48 I 16 I 32 I 48 I 16 i 32 I 48
0 р 0,52 0,64 0,70 0,76 0,94 0,95 0,79 0,93 0,96
s 0,31 0,33 0,33 0,22 0,08 0,13 0,20 0,15 0,15
1 р 0,51 0,53 0,51 0,86 0,96 0,97 0,95 0,99 0,99
s 0,36 0,40 0,42 0,21 0,13 0,12 0,09 0,07 0,09
2 р 0,61 0,69 0,76 0,90 0,94 0,90 0,98 0,96 0,97
s 0,34 0,33 0,30 0,22 0,22 0,28 0,14 0,18 0,16
На уровне 0,5, так же как и в п.3.3, сплошными линиями отмечены цепоч-
ки триплетов, не содержащие терминирующих кодонов.
На рис.3.7и3.8 даны графики величин P(ki|Z), i=l,2,3, полученных в случае V=(1,16) для последовательностей ECLEXX и ECARAC. Нетрудно видеть, что кодирующие области регистрируются на рис. 3.6,а,
3.7,в и 3.8,в, причем поведение функций-индикаторов имеет неодинаковый характер. Качество предсказания кодирующей области как единого целого ухудшается от ECRECA к ECARAC. В случае ECRECA значения индикатора в кодирующей области почти везде не менее 0,75. Функция для ECLEXX на
рис.3,7,в имеет один провал ниже уровня 0,5. Подсказка в виде информации об открытой рамке в значительной степени спасает положение на рис. 3.8,в, так как индикатор имеет многократные провалы до уровня 0,3 и даже до 0,1.
Из рис. 3.6-3.8 видно, что если бы в расшифровке ДНК возникла ошибка типа делеции или вставки некоторого числа нуклеотидов, не кратного трем, то она проявилась бы в перескоке индикатора области иг-одной рамки в другую.
Формально качество предсказания кодирующей области в целом мозт отразить при помощи средних значений - <р> , величин Р(К|Z), взятых i
Рис. 3.9. График функции-индикатора кодирующих областей для посль-довательности ECARAC в третьей рамке считывания Использование алгоритма с параметрами V=(2,48)
В данном случае для гена recA <р>=0,95, sl=0,09, для гена lex;
<р>=0,86, s=0,21 и для гена araC <р>=0,51, s=0,36. Те же величины
рассчитанные по другим вариантам алгоритма, приводятся в табл. 3.8 -
<р> в числителе, a s в знаменателе.
Рис. 3.10. График функции-индикатора кодирующей области для последовательности ECRRNBZ
Последовательность содержит "открытую рамку", используется алгорить с параметрами V=(2,32)
Согласно этой таблице, наибольшая степень разрешения для ген;. агаС достигается в случаз V=(2,48). На рис.3.9 приводится график соот-
ветствующей функции индикатора. Из табл.3.8 также видно, что если для генов 1ехА и гесА использовать алгоритм с w=16, то степень разрешения увеличивается с увеличением г. Причем для гесА уже V=(l,16) дает результат, который не удается существенно улучшить при больших w и всех других г. Аналогичный результат имеет место в случае 1ехА, если V=( 2,16).
Рис. 3.11. Плотности распределения значений байесовской вероятности кодирования
а - для кодирующих; б - для некодирующих областей
Вариация величины <р> для разных генов (для модели одного и того же порядка) говорит о неоднородности статистических закономерностей в первичной структуре генов E.coli. Представляется достаточно очевидным, что природа этой неоднородности связана с различными стратегиями использования кодонов в сильно, умеренно и слабо экспрессируемых генах. Полученные результаты демонстрируют вполне отчетливую тендецию изменения величин <р> и s с ослаблением экспрессии гена и свидетельствуют о том, что при фиксированных параметрах алгоритма степень разрешения кодирующей области будет тем выше, чем сильнее экспрессия.
Трудности, подобно рассматривавшимся ранее случаям, возникают в исследовании низкоэкспрессируемых генов. Здесь, как показывает пример агаС, относительное улучшение результатов достигается.
Таблица 3.9 Значения показателя надежности предсказания
1 г
1 0 | 1 1 2
48 0,82 0,84 0,91
72 0,87 0,89 0,92
96 0,90 0,91 0,96
_i____1-----^-т-
500
mao
1500
2000
zsoo
N
п
I III
гг
JOO
Ю00
1500
2000
2500
Рис. 3.12. Применение метода марковских цепей для последовательности ЕСАТРХ в случае V=(2,32)
Отмечены гены а - atpl; б - atpB; в - atpE; г - atpF; д - atpH
если использовать максимальный порядок модели и максимальную ширюг окна. Заметим, что принципиально этот вопрос может быть решен nyTet. настройки параметров алгоритма на статистические особенности конкретной группы генов (Fichant, Gautier, 1987).
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed