booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 101

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 95 96 97 98 99 100 < 101 > 102 103 104 105 106 107 .. 119 >> Следующая

Извлечение и формализация информации о последовательностях из первичных источников в настоящее время ведется экспертами. Существует две точки зрения на то, кто является лучшим экспертом - автор опубликованной последовательности или специально подготовленный редактор БД. С одной стороны, автор лучше всего знает свою последовательность, но с другой - ок субъективен в оценке своих результатов. Для написания реферата недостаточно данных, содержащихся в первичном источнике, необходимо привлечение общенаучных знаний. Экспертам также приходится самостоятельно решать проблему достоверности знания, делать обобщения и выводы и в соответствии с логической структурой БД отражать их в реферате. Трудности усугубляются тем, что обрабатывать приходится исследовательские и, следовательно, относительно недостоверные, * неустоявшиеся работы.
На этапе ввода информации в ЭВМ к возможным опечаткам в первичном документе добавляются новые, которые лишь частично можно обнаружить и скорректировать с помощью ЭВМ (применением двойного ввода, синтаксического контроля и т.д.). При загрузке полученного вторичного документа в БД возникает проблема увязки данной записи с уже имеющимися в БД. В существующих БД значительный объем занимают дубли, возникающие из-за независимого или намеренного секвенирования одних и тех же участков генома. Например, один и тот же участок генома может быть представлен как последовательность гена и одновременно в другой записи как кодируемая им РНК. Кроме того, имеются близкородственные последовательности, которые могут быть представлены как один объект или как разные объекты.
Создатели БД решают указанные проблемы различными путями, поэтому разные БД имеют разное качество. Учитывая сказанное, пользователям БД следует иметь в виду, что они могут столкнуться с отчасти недостоверной и ошибочной информацией (см., например, гл.4.3, где описаны проблемы создания выборок нуклеотидных последовательностей).
7.3. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ О НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ
Текстовое представление. Основной единицей хранения информации на внешних носителях является файл данных. Файл можно определить как логически объединенную область внешней памяти, имеющую свое имя. Совокупность файлов образует файловую систему. Определенная область Енешней памяти обычно отводится под каталог файловой системы. Если файловая система проста, например при последовательном расположении файлов на магнитной ленте, каталог может отсутствовать.
Важным типом файлов на ЭВМ являются текстовые файлы. Это файлы, логически состоящие из отдельных строк, отделенных признаком конца строки. В строках содержатся обычные буквы, цифры и некоторые специальные символы. Распространена кодировка текстовых файлов в коде ASCII и EBCDIC.
Текстовые файлы являются наиболее стандартизованными файлами, и поэтому они в значительной степени машинонезависимы. При кодировании текстовых файлов общепринятым признаком конца строки является набор из двух кодов CR/LF или в шестнадцатиричном коде 0D0A. В текстовом файле могут содержаться и другие коды управления печатью, такие, как переход к новой странице, коды табуляции, однако они не являются общепринятыми и могут различаться для различных систем обработки текста.
В п. 7.2 говорилось о том, что молекулярно-генетические базы данных содержат много описательной текстовой информаци. Кроме того, сами последовательности также читаются в виде текста. Поэтому в целях обеспечения переносимости дистрибутивные (т. е. готовые к передачи пользователям) выпуски БД распространяются в текстовом представлении с сохранением разделительных пробелов, отметок текущей длины, несмотря на то, что значительный объем носителя информации, занятый собственно последовательностями, используется нерационально. Для эффективной работы БД переписываются магнитные диски в формате, отличном от текстового.
Посимвольное представление. Нуклеотидные последовательности и подавляющая часть белковых последовательностей являются линейной (неразветвленной) цепочкой мономеров без знаков препинания. Интересующая исследователя область может находиться в любом месте последовательности. Для ускорения машинного доступа к таким областям удобно
представлять последовательности в виде непрерывной цепочки символов, каждый из которых кодирует один мономер. В такой цепочке отсутствуют пометки, введенные для облегчения визуального просмотра последовательности или ее функциональной привязки. В наибольшей степени такой модели данных отвечают файлы прямого доступа, которые поддерживаются, по-видимому, на всех типах ЭВМ. Поэтому такое представление широко используется в системах обработки генетической информации. В этом случае надо иметь в виду, что области, например диска, кодирующие саму последовательность могут отрываться от областей, на которых записано описание этой последовательности. Необходимые для визуального просмотра метки, текущую длину, комментарии и т.д. вставляют соответствующие программы обработки.
1-граммное представление. Посимвольное представление также является расточительным, поскольку один мономер кодируется одним байтом (8 бит). Упаковка двух нуклеотидов в один байт применяется в файлах последовательностей GenBank'a, распространяемых на гибких дискетах. Несколько усложняется доступ к отдельному нуклеотиду, но принцип прямого доступа здесь сохраняется. Более сложные способы упаковки будут рассмотрены в следующем разделе.

Предыдущая << 1 .. 95 96 97 98 99 100 < 101 > 102 103 104 105 106 107 .. 119 >> Следующая