booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 5

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 2 3 4 < 5 > 6 7 8 9 10 11 .. 119 >> Следующая

Наиболее распространенными сейчас являются персональные компьютеры фирмы IBM. Это связано с господствующим положением этой фирмы на компьютерном рынке, вследствие чего IBM-PC совместимые компьютеры быстро совершенствуются благодаря изготовлению для них различными фирмами дополнительных устройств и матобеспечения. В СССР также начато массовое производство IBM-PC совместимых компьютеров.
В настоящее время в мире появляется все большее количество комплексов программ анализа структур биополимеров для персональных и более мощных компьютеров (их стоимость лежит в пределах от 500 до
20 тыс. долларов). В СССР и социалистических странах в соответствии с научнотехническими программами "Генинформ" и "Генинформ-СЭВ" также разработано математическое обеспечение для ЭВМ различных типов. До 1991г. будут разработаны мощные комплексы программ исследования структур биополимеров для IBM-PC совместимых компьютеров.
Квалифицированное использование этих средств анализа позволяет существенно повысить эффективность научных исследований в области молекулярной биологии, биотехнологии и некоторых разделов медицины. В то же время, несмотря на широкое распространение компьютерных методов в молекулярной биологии, ощущается существенный недостаток литературы, освещающей широкому пользователю основные научные принципы, на которых построены прикладные программы анализа структур биополимеров.
В настоящей книге читатель познакомится с идеями и представлениями, на которых основаны современные методы анализа первичных структур биополимеров (в основном нуклеиновых кислот).
А.А.Александров
ГЛАВА 1. ПОИСК ГОМОЛОГИЙ
•1.1. ФОРМУЛИРОВКА ЗАДАЧ ПОИСКА ГОМОЛОГИЙ
Одна из наиболее часто возникающих проблем при анализе биологических текстов - поиск гомологий. И это понятно, поскольку схожесть текстов позволяет делать выводы об их эволюционной и/или функциональной близости. Здесь можно привести пример обнаруженной гомологии между определенными типами онкогенов и клеточными генами (Naharro et al., 1984), что привело к возникновению нового направления исследований. Гомологии между последовательностями часто используют для реконструкции эволюционных деревьев. Такие важные аспекты анализа биологических текстов, как поиск повторов, палиндромов, симметричных участков, сайтов рестрикции, также связаны с проблемой поиска гомологий. Анализ гомологий необходим также при подготовке и проведении целого ряда экспериментальных работ, в частности при синтезе олигонуклеотидных зондов для поиска клонов в клонотеке, стыковке фрагментов нуклеотидных последовательностей при секвенировании протяженных участков ДНК или целых геномов и др.
Проблему поиска гомологий можно ставить по-разному, и это приводит к разным методам ее решения и к разным результатам. Можно выделить следующие основные задачи поиска гомологий.
- Задача 1. Найти в двух текстах наибольшие полностью совпадающие фрагменты. Это так называемая задача о поиске максимального общего слова, и здесь в качестве критерия гомологии выступает длина совпадающего фрагмента.
- Задача 2. Найти максимальые фрагменты, совпадающие не полностью, а, быть может, с некоторыми заменами. Для этой задачи критериями гомологии являются длина совпадающих фрагментов и число (или процент) совпадающих букв (нуклеотидов или аминокислот). Для решения задач 1 и 2 разработаны весьма эффективные алгоритмы и сделаны оценки статистической значимости найденных гомологий.
- Задача 3. Найти максимальные фрагменты, не полностью совпадающие, а имеющие замены и вставки. Эта задача называется задачей о выравнивании и отличается от задачи 2 возможностью введения в сравниваемые последовательности вставок. В качестве критерия гомологии здесь, как правило, выступает число совпадающих букв за вычетом штрафов за замены и вставки. Для решения этого типа задач обычно применяют методы динамического программирования.
Описанные задачи допускают так называемую локальную формулировку, при которой в анализируемых текстах требуется найти не одну пару фрагментов, обеспечивающую максимум соответствующего критерия гомологии, а
И
все возможные пары такие, для которых этот критерий выше заданного порогового значения. Например, найти все совпадающие фрагменты длиной не менее к букв. Типичной локальной задачей о поиске гсмолсгий является задача поиска повторов.
Порой в литературе встречаются сообщения о том, что между теми или иными последовательностями обнаружена гомология 90, 70 или даже 40%. В первом случае значимость гомологии не вызывает сомнений и, как правило, она видна "на глаз". Во втором случае сходство не очевидно, и значение процента совпадений зависит от того, какая задача решалась и каковы были параметры, например чему равен штраф за делецию. В третьем же случае возникает сомнение, а есть ли ядесь вообще гомология? Поэтому, с одной стороны, важно знать, какая именно задача о гомологии решается и при каких параметрах, а с другой - необходимы статистические оценки значимоегк гомо.;-'-гий. Псс годнее :гредс гавляет собой сложную математическую задачу, некоторые аспекты которой рассмотрены в главе, посвященной статистическим методам анализа генетических текстов.

Предыдущая << 1 .. 2 3 4 < 5 > 6 7 8 9 10 11 .. 119 >> Следующая