Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 49

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 43 44 45 46 47 48 < 49 > 50 51 52 53 54 55 .. 119 >> Следующая

Рис. 3.13. Применение метода марковских цепей для последовательности ЕСАТРХ в случае V=(0,32)
В связи с изложенным выше рассмотрим также еще не полностью функционально идентифицированную последовательность ECRNBZ, содержащую ри-босомальный оперон. В этой последовательности зафиксирована открытая рамка считывания на интервале (275,1141), но ее кодирующие свойства экспериментально не установлены. На рис.3.10 приводится график функции-индикатора во второй рамке считывания данной последовательности
для V=(2,32). Значения <р>, s для интервала (275,1141) равны 0,73 и
0,34 соответственно. Это дает основание предполагать, что фрагмент (275,1141) кодирует еще не обнаруженный белок Е.coli с невысокой степенью экспрессии. Интересно, что в этом случае значение функции Фиккетта F равно 0,98, а вероятность кодирования по методу контекстных частот (см. табл.3.7) - 0,525, т.е. также предсказываются кодирую-
щие свойства.
Рис. 3.14. Применение методов 4-го (а) и 5-го (б) порядка для эукариотических ДНК
а - транскрибируемая последовательность гена леггемоглобина сои длиной 1254 нуклеотида; б - транскрибируемая последовательность гена
бета-глобинового гена человека длиной 1615 нуклеотидов; е( - экзоны
Для "метода марковских цепей", так же как и в п.3.3, могут быть определены при фиксированных г и w плотности распределения значений статистики Р(К|Z) на выборках кодирующих и некодирующих областей -d(Р|К) и d(Р|Н).
Из рис. 3.11, где представлены эти функции для случая г=2, w=32, видно, что они сосредоточены на концах области определения и в основном не перекрываются.
Введэм показатель надежности предсказания К = 1 - (el+e2)/N.
Здесь el - число ошибок первого рода - классификации кодирую-ющих фрагментов как некодирующих; е2 - число ошибок второго рода -классификации некодирующих фрагментов как кодирующих; N - общее число рассмотренных фрагментов. Величина К зависит от порядка модели, ширины окна и выбранного порогового значения Р, функции-индикатора, которое
имеет следующий смысл: если P(k|Z) > Р, , то фрагмент относится к
кодирующим, если Р(К|Z) < Р., то - к некодирующим. Значение Р,
можно выбрать оптимальным в смысле максимума К, исходя из известнсгс вида плотностей распределений d(P|K) и d(P|H). Величины К в зависимости от г и w приводятся в табл 3.9.
¦ Для сопоставления данного метода с методом Стадена (селекции кодонов) и методом контекстных частот, изложенным в п.3.3, обратимся к последовательности ЕСАТРХ. На рис.3.12 и 3.13 приводятся графики функций индикаторов для V=(0,32) и V=(2,32). В случае V=(2,32) четыре хорошо известных гена идентифицируются вполне удовлетворительно и лучше, чем в варианте V=(0,32). Однако интересно, что кодирующая область (177,566) дает в случае V=(0,32) более сильный сигнал, чем в варианте V=(2,32).
Это свидетельствует об использовании здесь необычного для Е.coli набора и чередования кодонов, так как к этим факторам алгоритм с моделью второго порядка более чувствителен, чем алгоритм с моделью нулевого порядка. Заметим, что вероятность кодирования по методу контекстных частот (п.3.3) для этой области, определенная при г=3 и w=15, равна 0,493. Таким образом, ОРС (177,566) в последовательности ЕСАТРХ представляет как бы нечто среднее между кодирующими и некодирующими областями и, по нашему мнению, является наглядным аргументом в пользу того, что статистические характеристики кодирующих и некодирующих областей еще недостаточно исследованы. Иначе говоря, мы полагаем, что рассмотренный метод распознавания еще недостаточно использует информацию, содержащуюся в нуклеотидной последовательности для характеристики ее функциональных свойств.
Одним из естественных шагов в этом направлении было бы увеличение порядка марковской модели. Такая работа была предпринята Клаверье и Бугельре (Claverie, Bougueleret, 1986). Они использовали в методе распознавания экзонов в первичной структуре ДНК эукариот результаты 1-граммного анализа обучающих выборок кодирующих и некодирующих областей при 1=5 и 1=6. Введенный ими индекс дискриминации d=Pexoi/(pexon+Pintron) полностью аналогичен байесовской вероятности в формуле (3.10), если полагать, что в качестве фрагмента Z рассматривается олигонуклеотид из 5 или 6 оснований (а цепь Маркова имеет порядок
4 или 5 соответственно). Таким образом, график значений индекса дискриминации, вычисляемых вдоль последовательности ДНК, является индикатором кодирующих и некодирующих областей и, как видно из рис.3.14, дает весьма обнадеживающие результаты для эукариотических геномов.
3.5.ЗАКЛЮЧЕНИЕ
Рассмотренные методы и результаты, полученные с их помощью, говорят о том, что компьютер в состоянии прочесть закодированные в статистических характеристиках признаки функциональных областей и перевести их на понятный язык либо в виде индикаторов, осуществляющих визуали-
зацию кодирующей области непосредсвенно на тексте ДНК, либо в виде прямых предсказаний функциональных свойств, выполняемых с вполне определенной степенью надежности.
Предыдущая << 1 .. 43 44 45 46 47 48 < 49 > 50 51 52 53 54 55 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed