Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 19

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 13 14 15 16 17 18 < 19 > 20 21 22 23 24 25 .. 119 >> Следующая

Для оценки уровня значимости гомологий нужно сформировать математическую модель порождения случайных текстов, а затем теоретически или с помощью метода Монте-Карло оценить статистические характерис-
тики распределения значений уровня сходства между случайными текстами заданной длины.
Таким образом, вопрос выбора адекватной модели порождения генетического текста тесно связан с вопросом о статистической значимости гомологий. Анализ различных моделей порождения текстов может помочь установить связь между статистической и биологической значимостью гомологий (см. п.2.5).
Статистические методы в теории молекулярной эволюции. Расшифрованные первичные структуры ДНК явились очень удобным объектом для сравнительного изучения с позиций теории эволюции, вооруженной методами статистики и дискретной математики. Подробное изложение этих вопросов можно найти в книге Ратнера и др. (Ратнер и др.,1985). Мы же в п.2.6 остановимся на таких характеристиках ДНК, как энтропия и избыточность, которые оказываются полезными при сравнении способов организации генетической информации различных таксономических групп.
2.2. СТАТИСТИЧЕСКИЕ МОДЕЛИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
Зачем нужны модели? Один из распространенных способов применения статистических моделей генетических текстов связан с изучением "неслучайных" особенностей в первичной структуре ДНК. Суть применяемого метода состоит в следующем. Анализируемый текст интерпретируется как элемент некоторой совокупности текстов. В силу объективных причин эта совокупность в целом может оказаться недоступной для исследователя, и тогда она создается искусственно - генерируется с помощью статистической модели. На полученном множестве текстов могут уже быть рассчитаны вероятностные распределения значений тех признаков, которые интересуют биолога. Если при этом окажется, что наблюдавшиеся на исходном объекте величины признаков характерны для "хвостов" распределения и имеют малую вероятность, например Р < 0,001, то эти данные могут считаться неслучайными в математическом смысле. Такие результаты, полученные с помощью моделей, дают формальное основание для дальнейшего изучения биологических и физических причин найденных закономерностей.
Для анализа нуклеотидных последовательностей используются статистические Модели разных типов. Они различаются по степени общности, по способу реализации и по применяемому методу моделирования. Под степенью общности имеется в виду то, насколько широким или узким является класс ситуаций, для которого используется модель. Мы можем рассматривать модель нуклеотидной последовательности вообще, модель первичной структуры ДНК организмов определенного таксона, модель определенной функциональной зоны или даже функционального сигнала.
По способам реализации модели можно разделить на аналитические и
численные, подразумевая под этим способ вычисления статистических характеристик.
В зависимости от применяемых методов можно выделить класс моделей, использующий аппарат марковских цепей (с аналитической или численной реализацией), и класс моделей, в которых применяются более общие методики, объединенные под названием методов Монте-Карло и реализуемые, как правило, численно.
Простейшие марковские модели. Сложность разработки модели, по-видимому, возрастает с уменьшением степени ее общности. Так, нуклеотидную последовательность общего типа можно представить с помощью генератора символов A,T,G,C, порождающего каждый символ текста независимо и с равной вероятностью. Достоинство такой модели в том, что из нее легко получить приближенные формулы для вероятности встречаемости в тексте заданного числа любых нуклеотидных слов и соответственно получить моменты распределений - среднее, дисперсию и т.д. Несмотря на то, что простейшая модель слишком груба для применения к реальным нуклеотидным последовательностям, она быстро дает удобные количественные оценки порядка величин.
Первым уточнением равновероятной модели будет поправка на частоту встречаемости, характерную для одной из нитей ДНК данного организма {или целого таксона). Например, мононуклеотиды T,C,A,G в последовательностях ДНК эубактерии E.coli из третьего выпуска базы данных EMBL (135 тыс. нуклеотидов), встречаются с частотами fT = 0,243, fc = 0,243, fA = 0,252, fG = 0,262. Использование этих величин в модели с независимым порождением каждого нового символа дает текст более близкий к реальному. Забегая вперед, назовем зту модель марковской цепью нулевого порядка.
Второе уточнение связано с тем, что в реальных первичных структурах ДНК мы видим явные предпочтения в "выборе" нуклеотидами своих соседей (см. далее), которые принцип независимого порождения не учитывают. Этот дефект модели можно устранить, если ввести новое понятие - условную вероятность встречаемости нуклеотидов. Например, вероятность появления нуклеотида А, при условии, что его соседом с 5' стороны является нуклеотид Т будет обозначаться Р(А|Т). Если известны 16 условных вероятностей P(b|a), a,b = T,C,A,G, то их можно использовать для генерирования модельной последовательности. Рассмотренная модель имеет название марковской цепи первого порядка, а величины Р(b|а) называются также переходными вероятностями марковской цепи.
Предыдущая << 1 .. 13 14 15 16 17 18 < 19 > 20 21 22 23 24 25 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed