Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 43

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 37 38 39 40 41 42 < 43 > 44 45 46 47 48 49 .. 119 >> Следующая

организмов внутри групп (Nussinov,1980; Ikemura,1981,1982). Поэтому возможности универсальных методов распознавания по содержанию оказываются неодинаковыми для первичных структур ДНК разных организмов и, более того, заранее непредсказуемыми. Естественно, возникает вопрос о том, нельзя ли "настроить" механизм распознавания так, чтобы были учтены статистические особенности данного генома (или группы геномов). Эту цель можно достичь, например, путем использования так называемой феноменологической модели кодирующей области, параметры которой определяются из результатов анализа известных кодирующих областей данного генома.
В ряде работ (Staden, McLachlan,1982; Gribskov et al.,1984; Hinds, Blake,1985) в качестве параметров модели берутся частоты встречаемости кодонов. Метод Стадена и Маклачлан, названный впоследствии "методом селекции кодонов", состоит в следующем.
Предположим, что мы рассматриваем фрагмент первичной структуры ДНК некоторого организма (обозначаемый далее через Z), состоящий из 3(п+1) нуклеотидов. Текст фрагмента Z может быть записан как цепочка триплетов
a,B.ciaAc2 .........а„+1вп + 1спм. (3.1)
Представим себе, что нам известны частоты встречаемости кодонов, характерные для кодирующих областей этого организма - f(abc), a,b,c=T,C,A,G. Кроме того, будем считать, что в полном геноме выделены три условные сквозные рамки считывания триплетов и что доля кодирующих областей, располагающихся в первой рамке - Q,, во второй - Q2 и в третьей - Q3.
Попробуем определить величину вероятности, с которой нам встретится последовательность (3.1), если извлекать случайным образом фрагменты длины п+1 из длинной кодирующей нуклеотидной последовательности. Величина этой вероятности будет принимать три разных значения в зависимости от расположения рамки считывания, т.е. первую позицию кодона занимает либо нуклеотид а,, либо нуклеотид Ь,, либо нуклеотид с,. Вероятности каждого из зтих случаев определяются следующими выражениями:
рамка 1 р,= Q, * f(a1bIc1) *.-f(anbncn),
рамка 2 р2= Q2* f(b,c,a2) •..*f(bncnantl), (3.2)
рамка 3 р3= Q3-f(c,a2b2)-....•f(cBanMbIlM).
Напомним, что нас интересует противоположная по смыслу величина Р - вероятность того, что фрагмент Z является кодирующим. Случаи, когда нуклеотид а, занимает первое, второе или третье похожение в кодоне, могут вносить существенно различный вклад в величину Р. Поэтому
Рис. 3.4. Применение "метода селекции кодонов" к atp(unc)~onepoHy Е. col i
Отмечены гены: а - atpl; б - atpB; в - atpE; г - atpF; д - atpH;
е - atpA; ж -atpG; з - atpD; и - atpC; 1,2,3 - номера рамок
рассмотрим эти случаи по отдельности и определим их вероятности исходя из известных значений pt, р2, р3, используя формулу Байеса:
Р, = Р/СР.+Рг+Рз)-
Р2 = Р2/(Р,+Р2+Р3)' (3.3)
Рз = Р3/(Р.+Р2+Рз)-
Теперь, как уже ясно, Р = Р,+Р2+Р3. Заметим, что при практической реализации алгоритма удобно использовать логарифмы частот. Полученные значения Р,,Р2,Р3 ставятся в соответствие центральной позиции окна. Таким образом, при сканировании последовательности возникают три функции, которые могут быть изображены графически (рис. 3.4).
Следует заметить, что полученные значения вероятности являются в определенном смысле условными, так как в данном методе байесовский формализм проведен недостаточно строго, например не рассматривается возможность попадания фрагмента Z в некодирующие области. Кроме того, сама феноменологическая модель кодирующей области как последовательности из независимо чередующихся кодонов не является полностью соответствующей реальности.
Поэтому полученные величины вероятности кодирования Р. в трех рамках не являются вполне адекватными. Этот факт отражается в наблюдаемых на рис.3.4 выбросах за 50%-ный уровень в некодирующих участках и провалах в кодирующих областях, количество которых превышает ожидаемое.
Тем не менее практическое значение метода было несомненно боль-
jjjiim. Достаточно сказать о работе Сэнгера и соавт. (Sanger et al., 1982), которые при анализе расшифрованного ими генома фага лямбда активно использовали метод селекции кодонов для картирования кодирующих участков и оценки вероятности того, что наблюдаемые ОРС являются реальными кодирующими областями.
К методу Стадена - Маклачлан близок метод Грибскова и соавт. (Gribskov et al.,1984). Основное отличие состоит в том, что для определения вероятности принадлежности рассматриваемого фрагмента ДНК к кодирующей области берутся частоты использования синонимических кодонов (нормированные на единицу в каждой группе), определенные заранее для данного генома.
Этот выбор в какой-то степени уменьшает чувствительность метода по сравнению с методом Стадена - Маклачлан, так как учитывается только одна из двух составляющих абсолютной частоты встречаемости кодонов, а вторая составляющая - частота встречаемости аминокислот - оказывается отброшенной. С другой стороны, возникают два преимущества. Во-первых, увеличиваются* возможности распознавания генов, кодирующих белки с произвольным аминокислотным составом. Во-вторых, получаемый результат несет одновременно некоторую информацию об использовании наиболее или наименее распространенных в данном геноме синонимических кодонов, что позволяет предполагать определенный уровень экспрессии гена (см.гл.2).
Предыдущая << 1 .. 37 38 39 40 41 42 < 43 > 44 45 46 47 48 49 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed