Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 34

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 28 29 30 31 32 33 < 34 > 35 36 37 38 39 40 .. 119 >> Следующая

m=an'-01-b , (2.16)
s=cn°-3-d , (2.17)
где а=0,605, Ь=1,04, с=0,61, d=0,23 для 12<п<1000. Эти формулы могут быть использованы для грубой оценки статистической значимости гомологий. Например, если нас интересуют гомологии 20-членных зондов, то в соответствии с формулами (2.16) и (2.17) (m=11.86, s=l,27) уро-
вень гомологии до 15,67 можно считать фоновым (при стандартном отклонении большем 3).
Формулы (2.16) и (2.17) находятся в хорошем соответствии с гипотезой (Chvatal.Sankoff,1975), согласно которой s=0(n1/3), и приво-
К
лившимися ранее оценками для lim —•
п—>® п
Если ввести штраф за делеции vd>0, то математическое ожидание m уровня оптимального выравнивания снизится. Райх и др. (Reich et al.,1984), учитывая, что при изменении vd от 0 до - мы переходим от поиска максимальной общей последовательности к фиксированному выравниванию, предложили формулы, позволяющие рассчитать статисти-стическую значимость гомологий для моделей с штрафами за делеции.
Гомологии и точечные матрицы. Часть точек при построении точечной матрицы может появиться вследствие случайных причин. Ясно,что такой "фон" является помехой для биолога, анализирующего точечную матрицу. Если задаться некоторым уровнем значимости (например, 0,99), то можно поставить вопрос: как выбрать параметры построения точечной матрицы (т.е. при каком уровне гомологии в окне следует ставить точку), для того чтобы вероятность появления "случайной" точки не превышала 1-0,99? Иными словами, биологу нужно выбирать такие параметры построения точечных матриц, которые исключают (при некотором уровне значимости) "случайные" точки.
Если мы сравниваем две последовательности длины 1000, то вероятность р проставления точки в произвольном месте должна быть достаточно низкой: 10~6 или менее - в противном случае вся точечная
матрица будет испещрена случайными точками. Какой должна быть р, для того чтобы с вероятностью 0,99 в точечной матрице для двух случайных последовательностей отсутствовали точки? К сожалению, для решения этого вопроса нельзя привлечь модель испытаний Бернулли: дело
в том, что хотя проставления точек в точечной матрице - редкие события, однако они сильно коррелированы. Например, вероятность простав-
ления точки может быть очень маленькой - 10~б и ниже, тем не менее условная вероятность v может становиться очень высокой, если вблизи от рассматриваемой позиции уже имелась точка. Поэтому оценка статистических характеристик для заполненности точечных матриц представляет довольно сложную проблему. При выборе параметров точечных матриц важную роль играет вероятность v появления точки для анализируемого окна при условии, что в смежных окнах точки отсутствуют. По значению v можно оценить вероятность Q того, что диагональ в точечной матрице размера п окажется свободной от штрихов:
Q = (1-v)" = e~v" .
Если положить Q=0,95, то следует выбирать v=0,05/n . Формулы для v (Reich,Meiske,1987) позволяют выбрать параметры при построении точечных матриц. Так, например, если мы хотим оценить уровень фиксированного выравнивания икрит в окне размера W, при котором следует ставить точку (Q=0,95), то можно использовать грубую оценку
и«Рит “ pW+[2p(l-p)*W*ln(n)]1/2.
Если оценивать вероятность Р гибридизации зонда длины ff в геномной библиотеке длины п, полагая, что зонд гибридизуется при наличии не менее b совпадений, то можно воспользоваться формулой
{(p/s)s [(l-pj/d-s)]1’5}*^^!-?)
Р » ------------------------------------- t
(2ns(l-s)W )1/2(s-p)
где s=b/W.
Методы, предложенные Райхом и Майске (Reich,Meiske,1987), позволяют оценить статистическую значимость заполненности точечной матрицы. Эмпирические формулы для выбора параметров, при которых снимается "случайный шум" при построении точечных матриц получены также в работе Канехиса (Kanehisa,1984). Там же приводится анализ статистической значимости так называемых локальных гомологий (Goad, Kanehisa, 1982).
2.6. ДНК: ИНФОРМАЦИЯ И ЭНТРОПИЯ
Определение понятий. Понятие информации (от латинского informatiо - разъяснение, изложение) в своем первоначальном смысле означало - сведения, передаваемые людьми устным или письменным способом. Затем (с середины XX в.) оно стало общенаучным понятием, включающим сведения, которыми обмениваются не только люди между со-
бой, но люди и автоматы (ЭВМ), автоматы и автоматы; включающим сигналы в животном и растительном мире, в том числе признаки, передаваемые от клетки к клетке, от организма к организму.
Теория передачи сообщений, развитая Шенноном, рассматривает понятия информации и энтропии в узком смысле - применительно к анализу символьных последовательностей.
Предыдущая << 1 .. 28 29 30 31 32 33 < 34 > 35 36 37 38 39 40 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed