booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 18

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 12 13 14 15 16 17 < 18 > 19 20 21 22 23 24 .. 119 >> Следующая

Для решения этих проблем необходимо прежде всего предложить модель порождения генетического текста и проверить ее адекватность на реальных примерах. Различные модели генетических текстов рассматри-
ваются в п.2.2. Изложенные там общие принципы используются и при формировании моделей функциональных зон и функциональных сигналов, применяющихся для разметки генетических текстов (см. гл.3,4).
¦ Построение "словарей” генетических текстов. Попытка найти разумную аналогию между генетическим и человеческим языком приводит к вопросу: что в генетическом тексте следует считать аналогами для
букв, слов и предложений? Задумаемся прежде всего о том, что превращает комбинацию букв в слово языка? Очевидно - наличие функционального, смыслового значения.
"Сцепление” отдельных букв в словах приводит к вполне определенным последствиям с точки зрения статистики. Например, если проанализировать частоты встречаемости всех троек подряд идущих букв в каком-нибудь тексте на английском языке, то обнаружится, что тройка THE (определенный артикль) встречается подозрительно часто. Даже человеку, не сведущему в английском языке придется предположить, что слово THE в этом тексте несет некоторую смысловую нагрузку.
Подобный подход к генетическим текстам активно используется в лингвистике ДНК, при этом набор неожиданно часто (или редко) встречающихся слов был назван словарем генетического текста. Для построения словарей генетических текстов необходимо уметь отвечать на вопрос, какие отклонения частот встречаемости слов от ожидаемых значений следует считать значимыми. Например, если слово TGATG 133 раза встретилось в геноме фага лямбда - много это или, наоборот, мало?
При ответе на этот вопрос необходимо:
- построение адекватных математических моделей порождения генетических текстов;
- предсказание частот встречаемости слов в рамках выбранной модели;
- оценка статистических параметров моделей порождения генетических текстов.
В п. 2.3 рассматриваются рассматриваются вопросы, возникающие при реализации статистического подхода к построению словарей генетических текстов.
Заметим, что в последнее время были обнаружены такие закономерности в распределении частот встречаемости кодонов в геномах ряда организмов (Borodovsky, Gusein-Zade,1989), которые дают дополнительные аргументы для предположения, что, в рамках аналогии между генетическими и лингвистическими текстами, роль буквы в кодирующих областях генома может играть тройка нуклеотидов - кодон, а роль слова может принадлежать достаточно протяженной части нуклеотидной последовательности гена - экзону (Gruskin, Smith,1987).
Выявление зонной структуры геномов. Представьте себе, чтс вам в руки попал сборник рассказов разных авторов на неизвестном языке, только напечатанных подряд, без всяких знаков пунктуации и пробелов. Можно ли восстановить (хотя бы приблизительно) начало и конец каждс-
го рассказа (т.е. выявить "швы" между рассказами различных авторов)? По-видимому, единственная надежда на решение этого вопроса -статистический анализ "стиля” различных писателей (например, частот встречаемости каких-нибудь слов), ведь при переходе границы между рассказами стиль должен меняться.
Согласно современным представлениям, геномы некоторых организмов составлены из различных частей. Например, в середине 70-х годов была выдвинута гипотеза о модульном строении геномов бактериофагов, согласно которой геномы бактериофагов состоят из некоторых частей - модулей, при этом модуль понимается как "дифференцированный сегмент, детерминирующий определенные функции". При выявлении в геномах швов между зонами, имеющими различные статистические свойства, используются различия частотных словарей слева и справа от потенциальных швов (см. п.2.4).
Меры близости генетических текстов и анализ статистической значимости гомологий. Одна из основных задач компьютерного анализа ДНК
- выявление сходства (гомологии) различных генетических текстов. Наличие такого сходства может служить признаком эволюционной близости геномов или функционального сходства рассматриваемых участков. При интерпретации результатов сравнения генетических текстов возникает вопрос, можно ли найденное сходство считать значимым или оно возникло случайно? С развитием банков данных и пакетов программ по молекулярной биологии этот вопрос стал звучать все чаще, особенно в ситуациях, когда "биологические" аргументы в пользу сходства рассматриваемых фрагментов отсутствовали. Статистический анализ не дает исчерпывающего ответа на этот вопрос. При его помощи, однако, можно оценить уровень сходства, вероятность случайного возникновения которого ничтожна мала.
Другой практический вопрос, который следует решать с учетом статистической значимости гомологий - выбор размеров зонда и условий гибридизации при скрининге библиотек генов. Для локализации генов при скрининге стараются использовать зонд, комплементарный нужному участку генома, - в этом случае проходит гибридизация: зонд-ген. Однако выбранный зонд может случайно оказаться комплементарен (или почти комплементарен) и другим участкам генома - в этом случае гибридизация будет идти не только с локализуемым геном и процесс скрининга значительно осложнится (Певзнер,Миронов,19876). Если вы хотите облегчить эксперименальную работу и исключить неспецифическую гибридизацию, скажем, в 99% случаев, вам нужно знать статистические характеристики гомологии между зондом и геномом.

Предыдущая << 1 .. 12 13 14 15 16 17 < 18 > 19 20 21 22 23 24 .. 119 >> Следующая