Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 38

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 32 33 34 35 36 37 < 38 > 39 40 41 42 43 44 .. 119 >> Следующая

Постановка и подходы к решению задачи.' Поскольку методы секвенирования позволяют получать большое число нуклеотидных последовательностей природных ДНК за короткое время, возникает проблема быстрого выяснения функций расшифрованных первичных структур. Обычный экспериментальный путь включает в себя картирование информационной РНК, промоторов, сайтов сплайсинга и других регуляторных участков. В итоге возникает полная и точная картина структурно-функциональной организации данного участка ДНК. Компьютерные методы не столь, точны, но быстрее приводят к результатам.
Когда говорят о задаче компьютерного распознавания или идентификации кодирующих областей на известной последовательности ДНК, имеют в виду следующее. По исходной нуклеотидной последовательности необходимо определить, содержит ли этот фрагмент ДНК (по прямой или комплементарной нити) белок-кодирующие участки, и указать их точные границы. Кроме того, необходимо дать оценку надежности предсказания. Методы, алгоритмы и программы, предложенные для решения этой задачи, пока еще не достигли исчерпывающего уровня надежности, и полученные с их помощью варианты предсказания разметки нуклеотидного текста на кодирующие и некодирующие области требуют дополнительного анализа (Stormo,198?).
Известные методы идентификации можно условно разделить на два класса: распознавание "по сигналу" и распознавание " по содержа-
нию" (Staden, 1985). В методах распознавания по сигналу используются специфические закономерности в растановке нуклеотидов, окружающих инициирующий кодон, и экзон-интронные границы. Эти методы описаны в гл.4 в числе других методов распознавания сравнительно коротких сигналов, или сайтов. Методы распознавания по содержанию, которым посвящена настоящая глава, основаны на том, что внутри кодирующих областей на всем их протяжении наблюдаются особенности в порядке чередования нуклеотидов, обусловленные целым рядом функциональных ограничений.
Одно из . очевидных ограничений заключается в том, что нуклеотидный текст кодирующей области должен допускать представление в виде последовательности триплетов (кодонов), не содержащих терминирующих троек ТАА, TAG, TGA. В этой последовательности частоты встречаемости синонимических кодонов должны соответствовать аминокислотному составу белковой молекулы.
Посмотрим, как это ограничение влияет на распределение нуклеотидов в кодирующей области. Данные о среднем аминокислотном составе белков из 314 семейств ( Dayhoff,1972) свидетельствуют о том, что частоты встречаемости аминокислот достаточно сильно варьируют, например аланина в среднем содержится в 6,6 раза больше, чем триптофана. Можно сформировать модельную кодирующую нуклеотидную последовательность таким образом, чтобы выполнялись ограничения на средний аминокислотный состав. При этом синонимические кодоны будем использовать с равной вероятностью (внутри своей группы). В табл.3.1 указано, какое количество (из 1000 остатков) приходится на долю каждой из 20 аминокислот во всех трех возможных рамках считывания. Заметим, что значения для первой рамки соответствуют цифрам Дайхоф. В табл.3.2 также для трех возможных рамок представлены частоты кодонов. Наконец, в табл.3.3 приводятся частоты встречаемости нуклеотидов в трех позициях кодонов, вычисленные для модельной последовательности.
Таблица 3.1 Встречаемость аминокислотных остатков
Номер А С D Е F G Н I К L
рамки
1 86 29 55 60 36 84 20 45 66 74
2 54 21 13 23 22 48 22 47 51 96
3 47 37 30 37 26 37 30 33 34 62
М N Р Q R s Т V W Y
1 17 43 52. 39 49 70 61 66 13 34
2 26 30 59 37 110 89 73 54 20 20
3 9 28 48 37 133 83 44 44 21 30
Во всех случаях (табл.З.1-3.3) можно увидеть значительные различия между частотами, относящимися к разным рамкам. Таким образом, ясно, что триплетность и конкретный вид генетического кода, а также диспропорции в аминокислотном составе приводят к вполне ощутимым особенностям в статистических характеристиках белок-кодирующих нуклеотидных последовательностей. Эти особенности в природных ДНК существенно усиливаются вследствие известного явления "селекции кодонов", которое заключается в том, что синонимические кодоны используются в геноме в неодинаковых пропорциях, специфических для каждого организма (Grantham et al., 1980а).
В случае прокариот поставленную задачу в значительной степени упрощает поиск достаточно длинных "открытых рамок считывания" (ОРС), т.е. последовательностей триплетов, которые начинаются инициирующим кодоном и заканчиваются сигналом терминации. Действительно, например,
вероятность возникновения ОРС длиной 100 нуклеотидов в случайной пос ледовательности с равновероятным включением четырех нуклеотидов - менее 1%. Однако известны кодирующие области существенно меньшей длины. И наоборот, не любая длинная открытая рамка является кодирующей. Довольно часто встречаются и ситуации, когда кодирующая область является частью открытой рамки, т.е. первый кодон ATG (GTG) не является инициирующим.
Предыдущая << 1 .. 32 33 34 35 36 37 < 38 > 39 40 41 42 43 44 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed