booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 50

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 44 45 46 47 48 49 < 50 > 51 52 53 54 55 56 .. 119 >> Следующая

Многочисленность методов такого рода отражает многообразие статистических особенностей кодирующих областей, иногда тесно связанных между собой, как, например, позиционные частоты моно-, ди- и тринукле-отидов.
Мы видели, что существует два типа методов: 1) универсальные -для последовательностей ДНК любых организмов: 2) настраиваемые на специфические особенности первичной структуры ДНК определенного организма (таксона) на основе обучающей выборки. Первые менее точны, но быстрее дают результаты, вторые требуют для получения большей точности дополнительных затрат на создание и анализ обучающей выборки.
Следует сказать, что корректного сравнительного анализа известных методов распознавания кодирующих областей еще не производилось, что связано, с одной стороны, с множественностью критериев (надежность предсказания, скорость получения результатов, потребность в ресурсах ЭВМ), а с другой - с неоднородностью предметной области (эффективность разных методов неодинакова на таксономически разных ДНК). Исследования, которые ведутся по методам распознавания кодирующих областей эукариот, должны суммировать приобретенный опыт, определить строгие критерии для оценки получаемых результатов и внести ясность в иерархию методов и моделей.
Глава 4. РАСПОЗНАВАНИЕ ФУНКЦИОНАЛЬНЫХ СИГНАЛОВ
4.1. СИГНАЛЫ В НУКЛЕИНОВЫХ КИСЛОТАХ
Наверное самые интересные события компьютерной генетики касаются распознавания функциональных сигналов по последовательности нуклеотидов в ДНК. Эти работы были начаты практически одновременно с появлением первых генетических текстов, но, кажется, им еще далеко до завершения. Чем глубже вникают исследователи в суть проблемы, тем сложнее представляется ее решение. До сих пор нет даже строгого общепринятого определения терминов функциональный сигнал и сайт. Впрочем, примерно можно определить сайт как конкретный участок последовательности минимальной длины, достаточный для выполнения определенной функции. Функциональный сигнал - более общее понятие, соответствующее классу последовательностей, выполняющих одинаковую функцию.
Прежде чем проследить за интригующим развитием идей и методов в работах по распознаванию, мы сначала познакомимся с примерами функциональных сигналов на нуклеотидных последовательностях. Наш микрообзор не охватит даже десятой доли интенсивно исследуемых в настоящее время сигналов, однако в нем найдут свое отражение важные для распознавания свойства сайтов и принципы их работы.
Сигналы, узнаваемые рестриктазами. Эти самые простые для распознавания сигналы чрезвычайно важны для выполнения генноинженерных работ. Из всего математического обеспечения, предназначенного для анализа нуклеотидных последовательностей, чаще всего используется программа рестриктазного картирования, определяющая положение рест-риктазных сайтов на последовательности ДНК. Рестриктазы узнают некое сочетание из 4-8 нуклеотидов и разрезают молекулу ДНК, как правило, в каком-то месте этого слова или неподалеку от него.
В настоящее время известны сайты узнавания более 650 разных рест-риктаз (Kessler, Holtke, 1986). Несмотря на сравнительную легкость локализации их по первичной структуре, на примере этих сайтов прослеживаются основные трудности общей проблемы распознавания.
Во-первых, сайт узнавания и место разрезания могут находиться на значительном расстоянии: так, рестриктаза Taqll разрезает молекулу на И нуклеотидов правее узнаваемого сайта, некоторые рестриктазы расщепляют ДНК в еще более неожиданном месте: на 100-1000 нуклеотидов правее своего сайта (считается, что последовательность ДНК записана в направлении 5'-3' и правее означает ближе к 3' концу). Зна-
чит, нам нужно определять положение узнаваемого сайта относительно экспериментально найденных точек расщепления.
Во-вторых, сайт может содержать вырожденные нуклеотиды. Например, сайт рестриктазы Hindi I выглядит так: GTYRAC, где Y - это Т или С, а R - А или G. Поэтому наша задача значительно усложняется - ведь рядом с местом разрезания может не быть одинаковых слов! В одном случае рестриктаза будет связываться с последовательностью GTTGAC , а в другом, например, - с GTCAAC.
В-третьих, узнаваемая последовательность зависит от условий, в которых идет рестрикция. Рестриктаза EcoRl в обычных условиях бактериальной клетки расщепляет последовательность GAATTC. Однако при низкой ионной силе и высоком значении pH специфичность воздействия этой же рестриктазы, обозначаемой уже EcoRl*, снижается: расщеплению теперь подвергаются сайты ААТТ (Polisky et al., 1975). Рестриктаза BamHl (канонический сайт GGATCC) при повышенном содержании глицерина воздействует также на сайты GGAACC, GGCTCC, GGGTCC и GAATCC (George, Chirikjian, 1982). Таким образом, при распознавании сайтов важно знать условия, в которых протекает реакция взаимодействия фермента с молекулой ДНК.
В-четвертых, эффективность расщепления зависит от последовательности, окружающей сайт (Сагитов и др., 1987).
В-пятых, нужно учитывать взаимодействие сайтов: близко располо-

Предыдущая << 1 .. 44 45 46 47 48 49 < 50 > 51 52 53 54 55 56 .. 119 >> Следующая