booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 63

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 57 58 59 60 61 62 < 63 > 64 65 66 67 68 69 .. 119 >> Следующая

Единственный постулат, который можно достаточно уверенно положить
в основу обучения, заключается в том, что промотор, с которого идет транскрипция, является оптимальным среди всех возможных близлежащих промотороподобных последовательностей. Тем самым мы допускаем, что у экспериментально определенных промоторов вес v может быть меньше, чем у нефункционирующих фрагментов последовательности, расположенных недалеко от другого промотора. Расстояние, на котором взаимодействие промоторов существенно, можно оценить размером покрываемой РНК-поли-меразой последовательности ДНК, т.е. 100 нуклеотидов.
Вот почему пришлось отказаться от типичной для теории распознавания образов постановки задачи - разделения фиксированного множество векторов и поставить целью обучения совпадение участка последова-тельности, дающего наибольшее значение весовой функции v с экспериментально найденным промотором. Абсолютное значение v теперь не играет решающей рели в распознавании. Главное, чтобы величина v у ре ального промотора была больше, чем вес любой другой последовательности на исследуемом фрагменте ДНК.
Еще одно изменение стандартного алгоритма связано с невозможностью точной идентификации нуклеотидов, образующих промотор. Экспериментально можно точно определить, с какого места начинается синтез РНК, но какие именно нуклеотиды образуют -10 и -35 блоки остается реизвестным. Эти блоки могут находиться на разном удалениии от точки инициации транскрипции, расстояние между ними также варьирует в значительных пределах. Поэтому одной экспериментально определенной точке начала транскрипции могут соответствовать несколько положений признаков промотора. Задача выбора оптимального положения признаков относится к общей проблеме множественного выравнивания (раздел 4.6), окончательного решения которой еще не найдено.
С учетом сделанных замечаний алгоритм персептрон работает следующим образом.
1. Если при предъявлении последовательности программа выбирает правильное, т.е. непротиворечащее экспериментальным данным положение структуры, разделяющий вектор не изменяется.
2. Если же программа ошибется, выбрав слишком удаленное от старта
транскрипции положение блоков, вектор f изменяется и становится равным ytM +x*,t где у - вектор, соответствующий выбранному
положению структуры, ах*- оптимальный из всех правильных векторов. Тем самым программа не только наказывается за ошибки, но и стимулируется к распознаванию правильных положений.
В качестве признаков промотора были взяты -10 и -35 области длиной соответственно 15 и 10 нуклеотидов, а также +1 область, составленная из трех динуклеотидов и расстояния между ними - всего получилось 177 бинарных признаков. С таким набором признаков удалось решить поставленную задачу на обучающей выборке из 80 последовательностей, содержащих промотор.
Для контроля был проведен поиск промоторов на последовательности фага fd, который дал довольно плохие результаты: из 35 лучших структур только четыре соответствовали реальным промоторам. Неудача, возможно, объясняется общими недостатками, присущими алгоритму персептрон и неоптималъным выбором признаков. Чтобы избавиться от этих недостатков, попытаемся использовать другой алгоритм распознавания образов и другой способ формирования оптимального набора признаков.
Обобщенный портрет. Итак, применение довольно простого алгоритма персептрон не дало удовлетворительных результатов; популярными статистическими методами нельзя получить однозначный ответ на вопрос о существовании разделяющего вектора. Больше возможностей дает алгоритм обобщенный портрет, детально разработанный Вапником и др. (1984). Для решения наших задач этот алгоритм потребовал лишь небольших изменений.
Положим граничное число R равным единице, что нисколько не изменит задачу распознавания и нужно только для нормировки условий разделения, которые теперь запишутся так:
(Гх)>-1, (4.7)
(f•у)< =к, где к<1.
Ясно, что может существовать несколько векторов f, удовлетворяющих условию (4.7). Геометрическая интерпретация этой неоднозначности сводится к наличию нескольких разделяющих плоскостей. Как видно из рис. 4.9, от положения плоскостей зависит расстояние г между множествами. Обобщенным портретом называют минимальный по модулю из всех возможных разделяющих векторов f, который обеспечивает максимум расстояния г.
При решении задачи распознавания сайтов для каждого элемента х, е X, будем строить свое множество Y,, в которое входят все векторы последовательностей обучающей выборки, за исключением некоторой окрестности остальных (кроме х,) сайтов, что обусловлено возможным взаимным влиянием функциональных участков молекулы ДНК. Тем самым мы формируем множество Z из векторов х, и всех элементов соответствующего множества Yr Множество Z значительно расширяется, если мы обладаем информацией о качественном соотношении эффективностей сайтов.
Описанный алгоритм был использован для построения разделяющего вектора на множестве промоторов E.coli. Обучающая выборка состояла из 80 последовательностей длиной - 60 нуклеотидов с известной точкой старта транскрипции. Модель промотора первоначально включала в себя Два блока по шесть нуклеотидов (блоки Прибноу и Гильберта), разделенных 15-21 основаниями. Начало транскрипции могло отстоять от Прибноу блока на четыре-восемь нуклеотидов, т.е. одной точке старта

Предыдущая << 1 .. 57 58 59 60 61 62 < 63 > 64 65 66 67 68 69 .. 119 >> Следующая