以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 生物信息学 』   (http://bbs.xml.org.cn/list.asp?boardid=46)
----  分子生物学数据库及相关软件的开发利用  (http://bbs.xml.org.cn/dispbbs.asp?boardid=46&rootid=&id=10367)


--  作者:admin
--  发布时间:9/23/2004 2:05:00 AM

--  分子生物学数据库及相关软件的开发利用


分子生物学数据库及相关软件的开发利用  


发信人: pkuyx (未名湖的鱼钩), 信区: Bioinformatics
标  题: 分子生物学数据库及相关软件的开发利用
发信站: 北大未名站 (2002年04月12日08:52:54 星期五), 转信

分子生物学数据库及相关软件的开发利用

李兵 罗静初 潘卫 唐汶 顾孝诚

The Development and Utilization of Molecular Biology
Databases and Related Softwares

LI Bing,1 LUO Jing-chu,1 PAN Wei,1 TANG Wen,1 GU Xiao-cheng1
1.The National Laboratory of Protein Engineering and Plant Genetic
Engineering,Peking University;
LI Bing,2
2.Computer Center,Peking University,Beijing100871,China

  生物大分子序列和结构测定技术的完善和应用,使核酸及蛋白质序列数据库及蛋白
质结构数据库迅速增长。面对不断增长的分子生物信息,很多生物学工作者又在此基础
上构建了具有特殊生物学意义和专门用途的二次数据库,使得数据库的内容和种类更加
丰富和具体,为生物学各个领域的深入研究提供了坚实的信息基础。由法国生物信息研
究中心Infobiogen提供的生物数据库目录dbcat〔1〕可以使用户对目前世界各地提供的
分子生物信息数据库有一个详尽的了解。dbcat本身也是一个具有一定数据格式的数据库
,按DNA、RNA、蛋白质、基因图谱、结构、文献等等分类,对每一种数据库的作者、联
系地址、何处获取等信息都有具体的说明。目前, dbcat数据库中包含了400多种生物信
息数据库的记录。同时, 针对这些生物数据库而开发的应用软件也层出不穷。这些软件
的充分利用,将成为生物工作者的有力工具。由英国欧洲生物信息研究所EBI提供的生物
软件目录Biocatalog〔2〕对这些软件进行了详细的描述。Biocatalog本身也是具有一定
数据格式的数据库,共有50多个类别,包括序列分析、序列对准(alignment)、数据库搜
索、分子进化、分子建模、结构预测、序列格式转换等。每一种软件都有作者、联系地
址、何处获取等信息,而且大部分软件都在不断地更新。目前, Biocatalog数据库中收
集的软件已达有500多个。大量数据库和软件都可以通过计算机网络获取。欧洲、美国等
许多生物信息中心设有很多站点,以WWW、FTP和E-mail等方式为用户提供各种数据库和
应用服务。由于国内网络设施、传输速度、上网费用等诸多因素的限制,这些信息资源
还不能被充分利用,自己测定的序列也不便提交国外服务器处理。在本单位计算机工作
站或网络服务器上安装一些常用的分子生物信息数据库和应用软件,是解决上述问题的
途径之一。对那些专有数据需要保密的单位,更有必要建立本地数据库服务系统。
  1997年以来,作为欧洲分子生物学网络组织中国节点,我们在北京大学生物信息中
心的网络服务器上安装了核酸、蛋白质序列、结构等近40个数据库和SRS、GCG、Staden
等有关软件〔3〕,积累了一些经验。本文对如何在本地安装数据库和软件作简要介绍。


1 数据库
  从数据库的种类来看,核酸和蛋白质序列数据库是最基本的数据库,很多专用的二
级数据库都由此而来。目前常用的核酸序列数据库有美国国家生物技术信息中心(NCBI)
的GenBank、欧洲分子生物实验室(EMBL)的EMBL以及日本国立遗传研究所的DDBJ;主要的
蛋白质序列数据库有瑞士日内瓦大学的SwissProt,以及美国、德国和日本合作管理的PI
R。除了序列数据库,还有美国Brookhaven国家实验室管理的蛋白质结构数据库PDB,以
及众多与序列有关的子库,这里不一一列举。
  从数据库的数据格式来看,以上大多数数据库都以文本方式存放数据及数据描述住
处所以使用任何文本浏览软件都可以对这些数据库存进行阅读。基本的数据格式有EMBL
、GenBank、PIR等,其中EMBL格式比较规范,为很多数据库所使用。EMBL核酸序列数据
库和SwissProt蛋白质序列数据库都采用这种格式。熟悉EMBL格式对于查阅现有数据库以
及构建用户自己的数据库都有很大帮助。
  从数据库所占存储空间来看,核酸序列数据库所占空间最大,如EMBL核酸序列数据
库目前已经发表第55期(1998年6月),包括2 330 040条序列,共有1 607 673 907个核苷
酸,整个数据库根据生物学分类分成19个文件,外加17个EST(表达序列标记)文件,共36
个文件,占6.7GB的存储空间。占空间较大的数据库还有PDB,约1GB。与此相关的蛋白质
二级结构空间构象参数数据库DSSP、按三级结构分类的同源蛋白质数据库HSSP、按三级
结构分类的蛋白质家族数据库FSSP各占140MB、83MB、270MB存储空间。PDBFinder是用于
查询PDB的数据库,占空间较小,只有4兆。其他数据库一般都在几兆到一两百兆之间,
如最新SwissProt第36期包括74019条序列,共有26 840个氨基酸,占142MB存储空间。

2 应用软件
  在针对生物信息数据库开发的软件中,有一些为商业性软件,用于UNIX系统的常用
序列分析软件是 GCG和Staden。这些软件功能齐全,并在不断更新。不少非商业性软件
仅需要很低的费用甚至免费即可获得,这些软件有些功能比较单一,有些功能比较丰富
;有些使用Xwindow界面,有些使用WWW界面,而有些以命令行(command line)方式运行
。使用Xwindow界面的软件,一般运行在UNIX操作系统环境下的工作站或服务器上,用户
需要有帐户,并要在装有Xterminal仿真软件的终端或PC机上操作,其优点是软件具有丰
富的菜单结构以及可以产生高质量的图形输出。
  对于WWW界面的软件,通常不必在服务器上开设帐户,可在任何装有WWW浏览器的机
器上访问,这给用户软件的使用及管理都带来便利。由欧洲生物信息研究所开发的SRS(
Sequence Retrieval System)是以WWW界面运行的数据库检索系统〔4〕,其主要功能是
将所有数据库建立参照(cross-references)索引,用户可通过输入查询代码、编号、物
种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索
,从而得到用户所需的序列或相关内容。SRS具有快速、详尽的查询功能,使之成为流行
的数据库查询软件。需要注意的是,SRS通过建立索引来加速检索,同时也产生了比较大
的索引文件,这些索引文件会占据1GB以上的存储空间,所以用户在决定存储空间大小时
要予以考虑。
  对于以命令行方式运行的软件,用户不仅要在UNIX环境下的工作站或服务器上有帐
户,而且用户还要熟悉命令及各种参数的使用,以及软件运行的各种环境变量的设置。
如果能将这类软件增加WWW接口,即以WWW界面方式运行,会给用户带来极大的方便。例
如,BLAST是由NCBI开发的的数据库搜索软件,其典型的命令行运行方式为:blastall
-p 程序名, -d 数据库, -i 查询序列, -o 查询输出。实际上, 此命令行还可以加入更
多的参数,通常那些参数都使用缺省值,所以不在命令行上出现。如果要进行更加严谨
合理的搜索,就要在命令行上对那些参数进行调整。而以WWW界面方式运行的BLAST则把
所有这些参数作成选项,用户可以在任何一个浏览器上通过调整选项取值对输入的序列
进行重复搜索,并可在浏览器上直接得到满意的结果。与BLAST类似的命令行软件还有很
多,为它们设计WWW用户界面,是对这类软件很好的集成,从而更便于用户使用。

作者简介:李兵(1967.12-),男,工程师,生物物理专业在职硕士研究生,电话:010
-62755206

作者单位:李兵 罗静初 潘卫 唐汶 顾孝诚 北京大学蛋白质工程和植物基因工程
国家重点实验室
李兵 北京大学计算中心,北京100871

参考文献:
 1 http://www.infobiogen.fr/services/dbcat/[DB].
 2 http://www.ebi.ac.uk/biocat/[DB].
 3 http://www.cbi.pku.edu.cn/.[DB]
 4 http://srs.ebi.ac.uk/srs5list.html[DB].


--
钓鱼是一种乐趣

※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.53.86]



W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
13,972.660ms