Научная литература
booksshare.net -> Добавить материал -> Биология -> Эбилинг В. -> "Физика процессов эволюции" -> 144

Физика процессов эволюции - Эбилинг В.

Эбилинг В., Энгель А., Файстель Р. Физика процессов эволюции — М.: УРСС, 2001. — 342 c.
Скачать (прямая ссылка): fizikaprocessovevolucii2001.djvu
Предыдущая << 1 .. 138 139 140 141 142 143 < 144 > 145 146 147 148 149 150 .. 176 >> Следующая

Солярис 0,160 0,323 0,410
Немецкий 0,14 0,26 0,33
Английский 0,15 0,30 0,35
Русский 0,14 0,29 0,40
Самоа 0,17 0,34 ---
Как видно из табл. 11.5, языки биополимеров обладают относительно малой избыточностью по сравнению с языками человеческого общения. Это свидетельствует о высокой надежности передачи биологической информации. В языке ДНК заметно выделены трехбуквенные слова ГГГ = Gly и ТЦГ = Ser, в языке РНК — трехбуквенные слова ГГГ = Gly, ЦУГ = Leu, АЦЦ = Thr, и ГГА = Val (они соответствуют наиболее часто встречающимся аминокислотам). Этим объясняется сильное повышение избыточности групп из трех букв. В случае аминокислот мы наблюдаем особенно заметное повышение избыточности при переходе к группам из двух букв. В этом отражается предпочтительность таких пар, как KG, TG, VE, ЕК, GK, IF, КТ, PG, NK, GI, YI, означающая, что соответствующие аминокислоты образуют между собой связи особенно часто.
Для структуры языка наряду с абсолютными частотами знаков особое значение имеют бинарные отношения, наглядно представимые на диаграмме — языковом графе. Обозначим буквы алфавита кружками, а наиболее частые корреляции — штриховыми стрелками. На рис. 11.4, 11.5 и 11.6 показаны языковые графы для языка нуклеиновых кислот, языка протеинов (белков) и немецкого языка. Узлы графа
<§>
Рис. 11.4. Граф языка ДНК (сплошные стрелки соответствуют частоте последования от 8 до 13%, штриховые стрелки — частоте последования от 4 до 8%)
изображены с таким расчетом, что их расстояние от центра языка (наиболее часто встречающегося знака) служит мерой убывающей частоты.
Приведенные примеры относительно коротких последовательностей отнюдь не всегда являются представительными для классов последовательностей ДНК, РНК и белков. Выдающиеся исследования Гатлина (Gatlin, 1972) последовательностей ДНК и белка обнаруживают относительно большое рассеяние. Гатлин предположил, что биополимеры можно рассматривать как марковские источники первого порядка (тп = 1), и вычислял энтропию этих источников по формуле
Рис. 11.5. Граф языка белков (сплошные стрелки соответствуют частоте последования от 2 до 3%, штриховые стрелки — частоте последования от 1 до 2%)
Я = #2 - Я,.
Соответственно, избыточность определятся выражением
log А — Я
Рис. 11.6. Граф немецкого языка на основе приведенного в тексте отрывка из «Соляриса» Станислава Лема (сплошные стрелки соответствуют частоте последования от 2,5 до 3%, штриховые стрелки — частоте последования от 1,2 до 2,5%)
R =
log А
Для некоторых последовательностей ДНК Гатлин (Gatlin, 1972) вычислил также высокие значения шенноновской энтропии (рис. 11.7). Некоторые более новые результаты вычислений для ДНК вируса саркомы Ру представлены на рис. 11.8. Для этого был выбран фрагмент последовательности ДНК длиной I = 9 304, причем особое внимание было уделено учету поправок на конечность цепи (Ebeling, Feistel, Herzel, 1987). Существуют указания о том, что наблюдаемое плато при г > 5 не соответствует истинному пределу и что при увеличении значений г оно сменяется спадом. В упоминавшихся выше работах сформулирована гипотеза, согласно которой энтропия биопоследовательностей и других текстов на естественных языках равна нулю. Для таких последовательностей характерно существование дальнодействующих корреляций. Вследствие этих корреляций информации, носителями которой служат
Рис. 11.7. Высшие энтропии Шеннона для ДНК из печени собаки по Гатлину (Gatlin, 1972)
Рис. 11.8. Энтропия на букву для ДНК вируса саркомы Ру; для сравнения штриховой ломаной показаны результаты в случае цепи Маркова первого порядка (Ebeling, Feistel, Herzel, 1987)
новые буквы, становится все меньше. В пределе длинных последовательностей новая добавляемая буква в значительной мере «предопределена» правилами. Другой способ прочтения обсуждавшейся выше гипотезы состоит в том, что число «имеющих биологический смысл» последовательностей возрастает не экспоненциально
N* ~ ехр {vH},
(11.33)
а по степенному закону
N** ~ v = ехр {G In v}.
(11.34)
Здесь G — константа, зависящая от «языка», но не от длины последовательностей. Мы будем называть G характеристическим индексом языка. Несмотря на имеющийся обширный эмпирический материал по биопоследовательностям, какие-либо надежные статистические утверждения пока отсутствуют.
Одна из основных трудностей при вычислении высших энтропий состоит в том, что число возможных частичных слов необычайно быстро возрастает с увеличением длины, поэтому хорошая статистика достижима только вместе с весьма обширным материалом по последовательностям. Как показано в одной более поздней работе, вычисление трансинформации или распределений расстояний Хэмминга значительно менее трудоемко (Ebeling, Feistel, Herzel, 1987). Понятие трансинформации определяется следующим образом:
Предыдущая << 1 .. 138 139 140 141 142 143 < 144 > 145 146 147 148 149 150 .. 176 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed