booksshare.net -> Добавить материал -> Биология -> Соловьев В.В. -> "Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов" -> 24

Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов - Соловьев В.В.

Соловьев В.В. Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов — Новосибирск, 1988. — 93 c.
Скачать (прямая ссылка): ispolzovanieevmvmolekulyarnoy1988.djvu

Предыдущая << 1 .. 18 19 20 21 22 23 < 24 > 25 26 27 28 29 .. 30 >> Следующая

Степень сходства конкретного промотора вычисляется по следующей формуле: L
X W( i, j) + Wa- ш'я
я = т----г-— ,
так- vnin
где L = 30 - длина анализируемого промотора; так ~ максимальное значение % wd,j)+w; min - минимальное значение L J=1
? + Ws . Таким образом, значение Н изменяется в диа-
пазоне от 0 до 100.
Бри анализе связи величин Н и активности промоторов была показана прямая зависимость меаду этими величинами /46/. Этот результат представляет большой интерес, поскольку позволяет с некоторой точностью предсказывать активность промотора без использования экспериментальных методов.
4.2.4. Метод выявления информативных зон в наборе выравненных последовательностей. Данный метод /372/ позволяет выявлять консервативные участки в наборе выравненных последовательностей на основе анализа трактов, входящих в состав этих последовательностей.
В методе задается "окно" анализа шириной в d символов, положение которого определяется параметром ы0 • "Окно" скользит вдоль набора последовательностей с шагом в один или более символов (рис. 43).
Для выделенного "окном" участка каждой последовательности Ti(No,d), не содержащего пустых позиций, вычисляется частотная характеристика ^-го порядка которая является
75
Окно анализа
с а
Ё
т
ы
1
2
М
12 3...
;м>
номера позиций
Ряс. 40. Схема выявления информативных зон в наборе выравненных последовательностей /172 /
совокупностью всех трактов длины /, упорядоченных по убыванию частоты встречаемости. Трактам, отсутствующим в (N0,d), присваивается нулевая частота. Например, частотная характеристика второго порядка последовательности ”са gcctc ат“ имеет следующий вид: СА (частота 2); ag, gc, СС, Ст, тс,Ат(частота I); GG,AC,AA,&/i,Q6, GT, тт, та, TG (частота 0). Потенциально возможное чиело трактов длины 1% /А^/ = д' ( где N - мощность алфавита.
Мерой сходства текстов в пределах заданного "окна" анализа в данном методе служит коэффициент конкорданции */Т?3/ *?-го порядка
iZSf
W (=----;
тпг- (/А&/ - /At/ )
76
где - суша квадратов отклонений суммы рангов факта (по всем т - упорядочениям 2^( т? ( Na, d) ) от среднего значения суммы рангов одного тракта длины t, равного 0,5*М (/А^Д +1). Равночастотным трактам црисваивается усредненный ранг /Г73/, что цриводит к соответствующей поправке в W$ .
Изменяя А'о с шагом С, получим кривую значений Щ(М0,
б, гл) . Расцределение статистики VIi при выполнений гипотезы случайности известно /Г73/. Это позволяет вычислить пороговое значение Р (), соответствующее заданному уровню значимости <*.. Превышение статистикой величины Р С<?) для опре-
деленных участков свидетельствует о статистической значимости пиков кривой значений Wj (М0, d, m), которые авторы /Г72/ отождествляют с функционально значимыми зонами в последовательностях. Параметр d рекомендуется изменять от значения d miтг > I Д° значения dmax > ЦРИ которых происходит слияние локальных максимумов кривой Щ(Я„, тп) . Вариация параметра No позволяет определить положение функционально значимых зон, а вариация параметра d - оценить их размер (т.е. то значение 6 , црн котором м/^ (М0 , d, тп) достигает максимума, если фиксировать ?, N0 и m ). Параметр ? рекомендуется изменять от I до 3.
Метод применялся для исследования промоторов и сайтов связывания с рибосомой ряда фагов и ?. coii . При сопоставлении вышеописанного метода /Г72/ с аналогичной методикой Шерера /Г74, Г75/ на одних и тех же классах функциональных сайтов оказалось, что вышеописанный метод имеет ряд преимуществ: меныную трудоемкость алгоритма и формализованную процедуру принятия решения /172/.
4.3. Теоретические методы выявления потенциальных ФС
В основе всех методов поиска функциональных сайтов лежит предположение о том, что последовательность, сходная с последовательностями консенсусов или конкретных функциональных сайтов, может функционировать аналогично исходным функциональным сайтам, составляющим набор выравненных последовательностей.
4.3.1. Поиск участков, гомологичных функциональным сайтам али их консенсусам. Для выявления участков в исследуемой пос-
77
ледовательности, обладающих неслучайным сходством с заданным сайтом, разработан подход, основанный на следующих положениях
1. Так как гомология между консенсусом и участком ДНК может носить случайный характер, решающее значение имеет оценка ее статистической значимости. Лишь в случаях, когда она является статистически неслучайной, можно сделать вывод о соответствии выявленного фрагмента истинному ФС.
2. При описании ФС, в силу его малого размера, нельзя пользоваться такими характеристиками, как частоты нуклеотидов в последовательности сайта. Вместо этого необходимо использовать оценки, основанные на количестве нуклеотидов различных типов, входящих в ФС, что усложняет их получение.
Пусть ФС ищется в последовательности длины N со случайным расположением нуклеотидов А, Т( V), 6 , С, имеющих частоты , рт , рв , рс соответственно. Частоты нуклеотидов различных классов р- (i = I, ..., 15) определяются следующим образом: р< = РА ; ; Р3 = Рв ; Р4 = Рс . Величины рг (if = 5, 15) вычисляются как суммы частот всех типов нуклеотидов, входящих в i-й класс. Тиш нуклеотидов, которые могут входить в еостав консенсуса, приведены в табл. 5.

Предыдущая << 1 .. 18 19 20 21 22 23 < 24 > 25 26 27 28 29 .. 30 >> Следующая