booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 103

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 97 98 99 100 101 102 < 103 > 104 105 106 107 108 109 .. 119 >> Следующая

q-5*10"5; 1=4, max значение К-3,99, q-7*10'6, Используется также сжатие текстовой информации с использованием словарей. Обсуждение соответствующих методов выходит за рамки книги. Таким образом, как правило, информация, хранящаяся в компьютере, совсем не похожа на ту, которая записана на дистрибутивных носителях.
7.4. УПРАВЛЕНИЕ БАЗАМИ ДАННЫХ
Важнейшим видом матобеспечения ЭВМ являются системы управления базами данных (СУБД), т. е. системы для хранения структурированных данных и доступа к ним по запросам пользователя (Кокорева, Малаши-нин, 1984; Дейт, 1980). В настоящее время разработано значительное
число СУБД для ЭВМ различных типов, и число их растет. Это связано с тем, что разработчики СУБД стремятся удовлетворить все возрастающие потребности в этих системах. Можно согласиться с тем, что не существует универсальной СУБД, одинаково пригодной для любых типов данных (или моделей данных), и обычно каждая СУБД, кроме того, что она рассчитана на определенную модель данных, оптимизируется для относительно небольшого диапазона значений данных. Это и понятно. Трудно представить себе, что одинаково эффективно в одной и той же СУБД можно хранить, осуществлять доступ и изменять такие данные, как кадровые данные большого предприятия, пространственные модели машиностроительных деталей и первичные последовательности нуклеиновых кислот. Несравнимы и типы запросов, которые предъявляются к этим системам.
Таким образом, имея в виду перспективы увеличения объемов молекулярно-генетических БД, мы приходим к выводу о небходимости создания специализированной СУБД в особенности для малых машин. Небольшие по объему последовательностей БД можно поставить под управление СУБД общего назначения, таких, как dBASEIII или R:5000 на микро-ЭВМ.
Следует иметь в виду, что СУБД обычно не существуют сами по себе, а входят в состав информационно-поисковых систем, интегрированных пакетов (т. е. пакетов, осуществляющих большую часть стандартных операций над данными), систем интерактивной инженерной графики и т.д. СУБД в них выступает ядром программной части, связывающей БД на внешнем носителе с интерфейсом пользователя (т. е. с теми программами, с которыми непосредственно общается пользователь).
Остановимся подробнее на функциональной части. Ниже идет список запросов, на которые может ответить -специализированная СУБД.
1. Создание подбазы данных по совокупности явных признаков. Например, создание БД РНК В. subtil is.
2. Поиск по ключу, например по ключу "глобиновые гены”.
3. Внесение новых записей в БД.
4. Создание новых записей путем объединения или расчленения старых.
5. Статистика ключевых слов БД.
6. Создание списка фрагментов открытых рамок трансляции для данного биологического вида, например ДНК Н. sapiens.
7. Создание подвыборки последовательностей окрестности функциональных сайтов, например точек инициации транскрипциии по записям координат промоторов в таблице особенностей.
8. Статистика БД, например составление таблиц использования кодонов.
9. Сравнение данной последовательности с банком.
Перечислим несколько примеров реализации СУБД.
1. ИПС ПОИСК (версия 1.2, ВИНИТИ) (Анев и др.,1982). Позволяет вести БД большого объема порядка нескольких сот мегабайт. (Запросы
1,2,5, запросы 3,4 выполняются администратором БД.)
2. Интегрированная система MBIS (CSIRO, Division of Molecular Biology, Australia) для ЭВМ VAX 11/750 (Bucholtz, Reisner, 1Э86). Позволяет одновременно работать с пятью заданными БД и выполнять запросы 1,2,9.
3. Информационная подсистема DBQUEST системы GENEUS для ЭВМ DEC VAX/VMS (Швеция) (Harr et al.,1986). Запросы 1,2.
4. Поисковая подсистема GENEMAN пакета программ DNASTAR для IBM PC. Запросы 1,2,9, имеется возможность широкого информационного поиска по полю SQ (см. п.7.8) (Doggett, Blattner,1986).
5. Библиографически ориентированная информационно-поисковая система IS для микро ЭВМ "Искра-226" (Шепелев и др.,1986). Позволяет вести БД объемом до 2М. Способна выполнить запросы 1,2,3,4,5.
7.5. ОРГАНИЗАЦИЯ ДАННЫХ НА ВНЕШНИХ НОСИТЕЛЯХ.
ПЕРЕДАЧА ДАННЫХ НА ВНЕШНИХ НОСИТЕЛЯХ
БД молекулярно-генетической информации могут передаваться из центров, в которых они создаются, на магнитных лентах или дисках. Не утратили своего значения представления БД в виде отпечатанных типографским способом книг. Кроме собственно БД в дистрибутивный вариант могут включаться различные каталоги, указатели, облегчающие использование БД человеком или машиной, программы доступа к БД и т.д. Собственно БД может содержаться в отдельном файле или может быть разбита на несколько отдельных файлов. Разбиение диктуется как объемом памяти носителя (обычно разбиение делается для дискет, так как магнитные ленты имеют достаточную емкость для размещения всех файлов), так и логикой БД. Например, рассмотрим организацию файлов БД GenBank (выпуск 44.0, август 1986г.), распространяемой на дискетах объемом 320К. Вся информация размещена на 26 дискетах. На 23 из них находятся: 1) файлы собственно нуклеотидных последовательностей; 2) файлы

Предыдущая << 1 .. 97 98 99 100 101 102 < 103 > 104 105 106 107 108 109 .. 119 >> Следующая