
出版社: 科学
原售价: 59.80
折扣价: 47.30
折扣购买: 水产生物信息学(科学出版社十三五普通高等教育本科规划教材)/水产科学系列丛书
ISBN: 9787030690647
**章 水产生物信息学概述
学习目标 Learning Objectives
1.了解生物信息学的概念、研究内容以及分子生物学中常用的生物信息学分析软件。
Understand the concept of bioinformatics, research content and bioinformatics analysis softwares commonly used in molecular biology.
2.了解生物信息学的发展简史。
Understand the development history of bioinformatics.
3.认识和理解水产领域中生物信息学的应用潜力和发展前景。
Understand the application and development prospect of bioinformatics in aquaculture.
**节 生物信息学概述
进入21世纪以来,分子生物学的一个显著特征便是生物信息的急剧膨胀。生物信息的种类有很多,主要包括核苷酸的序列数据、蛋白质的序列数据以及蛋白质的二维结构和三维结构数据等。近年来,随着高通量测序技术的出现,生物信息的增长量是惊人的,以核酸数据库为例,每14个月就要翻一倍,截至2016年,数据库包含全基因组测序数据,已达到近9800亿个碱基对。如何有效管理、准确解读和充分使用这些数据,使之成为有用的知识,是生物信息学一直致力完成的事情。欧美等发达国家和地区一直十分重视生物信息学的发展;在各专业研究机构及生物科技公司中,生物信息学相关部门数量也在不断增加;在迅猛的发展态势下,其对相关专业人才的需求也与日俱增。
我国生物信息学的研究起始于20世纪90年代。1996年北京大学建立了我国**个生物信息学网络服务器,这标志着我国生物信息学研究的开端。随后,清华大学、浙江大学、中国科学院上海生命科学研究院、中国科学院生物物理研究所、中国科学院遗传与发育生物学研究所等陆续开展了生物信息学的相关研究。北京大学和中国科学院上海生命科学研究院相继于1997年3月和2000年3月成立了我国最早的两个生物信息中心。现在,国内的生命科学研究伴随着技术的不断革新,有关生物信息学研究和服务的市场需求变得非常广阔,除了华大基因(BGI)外,越来越多的高等院校、科研单位开展了生物信息学理论与应用研究,少数生物信息学技术服务机构或公司也提供了相应的科技服务。
一、生物信息学
20世纪50年代,人类遗传密码的载体——DNA的双螺旋结构被发现后,围绕着这一伟大发现,生物学家探索出一系列关于生物遗传的重要理论。其中对生物信息学最为重要的便是中心法则。早期的探究,确定了蛋白质这一生物大分子在活细胞中发挥的关键作用,但细胞中含有三种线性大分子:DNA、RNA和蛋白质,它们之间的联系却不清楚。在确定了DNA是生物体遗传信息的主要载体后,它们三者之间的相互关系成为一个值得生物学家认真探究的问题。中心法则的确立,建立了细胞中三种线性大分子DNA、RNA和蛋白质在生物遗传信息传递过程中的联系,为后续的研究打下了坚实的基础(图1-1)。
知晓了生物的遗传信息在生物体中的传递和表达,作为承载了生命遗传信息的“天书”——碱基排列顺序,成为了生物学家想要迫切破译的研究课题。20世纪60年代,限制性内切酶的发现,使得DNA重组技术不断发展,于1975年左右,DNA测序方法正式建立。从此,一条条不同个体、不同物种的“A、C、T、G”序列,摆在了生物学家的研究桌上。
在人类基因组计划的影响下,DNA测序技术不断革新与发展,极大地提高了DNA测序的效率,使得测序成本大大降低。Nature和Science也作了专刊(图1-2)。目前,国内外的测序技术几乎已经扩展到所有具有重要经济价值和理论研究意义的物种。
测序技术不断进步,也伴随着相关研究的极大繁荣。生物信息的内涵不断扩充,早已不是指最初简单的分子序列(核酸和蛋白质)。发展至今,还包括蛋白质二级结构和三维结构数据、蛋白质疏水性数据等。随着生物信息的爆炸式增长,对生物遗传信息的储存和整理提出了更高的要求。生物学家借助电脑和互联网,把试验获得的大量核苷酸序列和三维结构数据在数据库中保存,以留待相关生物学研究者进行后续的整理和破译。面对如此海量的生物遗传信息,一门崭新的应用学科——生物信息学应运而生,并得到了极大的发展与繁荣。
生物信息学(bioinformatics)是在生命科学研究中,利用应用数学、计算机科学、统计学和信息学的方法对收集到的生物信息进行处理、储存、分析和解释的一门应用学科。它是分子生物学与信息技术(尤其是互联网技术)的结合体。生物信息学的研究材料和结果就是各类丰富的生物学数据,研究工具是计算机,主要的研究内容是使用算法和相关的软件工具对生物数据进行采集、处理、储存、分析和解释。目前研究重点主要体现在基因组学(genomics)和蛋白质组学(proteomics)两方面,具体来说就是从核苷酸和蛋白质的序列出发、分析序列中所表达的有关结构和功能的生物信息。
二、生物信息学的主要研究内容
在生物信息学诞生之初,其研究内容简单来说主要包括以下三点:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据的新工具。但生物信息学作为一门应用学科,不同的发展阶段对生物信息学的具体要求有很大的不同。尤其是近几年生物基因组研究的火热,实验数据和可利用信息的急剧增加以及新技术的不断出现,对生物信息学的具体研究内容提出了新的挑战。它要求生物信息学家研究基因组数据之间的关系,通过分析现有的基因组数据,使用数学模型和人工智能技术破解生物遗传密码,揭示生物学规律,从而帮助人类探索生命的本质。
生物信息学在目前阶段的具体研究内容包含以下5点。①生物分子数据的收集与管理;②数据库搜索及序列比较;③基因组序列分析;④基因表达数据的分析与处理;⑤蛋白质结构的预测。
(一)生物分子数据的收集与管理
生物分子数据的收集主要来自以下几个方面:基因组测序、核酸序列测定、蛋白质序列测定以及利用X射线衍射和核磁共振技术测定的蛋白质三维结构。这些数据通过汇总整理,组成了数据库。其中,最常用的基因组数据库有EMBL(欧洲分子生物学实验室核苷酸序列数据库)、GenBank(美国国家生物技术信息中心核苷酸序列数据库)、DDBJ(日本DNA数据库)、SWISS-PROT(蛋白质序列数据库)、PDB(生物大分子结构数据库)。
数据库的建设是生物分子数据收集与管理的基础。目前有大量数据库是公共开放的,可提供数据的开源共享,并且还集成开发了一系列生物信息学分析工具,如NCBI(美国国家生物技术信息中心)的BLAST系列工具等。但在进行专项研究时,研究者仍需要分析数据的储存形式和复杂程度,组建特有的数据库,开发信息交流平台,并提供相应的分析程序。除此之外,还要考虑要不要将各种搜索算法硬件化,实行并行计算、显卡处理器(GPU)计算和先进的内存管理以提高速度等。最终,也要考虑架设数据库的成本。
生物数据库覆盖面广,分布分散且异质。使用超级链接或进行拷贝再整理是将多个数据库整合在一起提供服务的最简单方法,可以为之提供数据库的一体化和集成环境。但往往简单的链接并不能符合要求,目前使用较多的是联合数据库系统。它可以支持用户或应用程序在不同数据库甚至是不同数据库管理系统中的数据里查询同一条SQL语句,是IBM分布式数据库解决方案的重要组成部分。也可以对文本数据进行挖掘和再整理时,直接基于Internet技术来进行远程查询。生物的分支学科较多,使用Ontology技术可以解决整合数据库时从不同语义角度考虑的一致性问题,从而消除连接数据库时不同标准查询机制的阻碍。
(二)数据库搜索及序列比较
在数据库的利用中,最重要的便是搜索及序列比较。保守序列可能会有功能、结构或进化上的关系,通过搜索同源序列我们可以得到在一定程度上的相似序列进而得到保守序列。因此,若要对感兴趣的目标DNA或蛋白质进行研究,首要工作便是搜索它的同源序列。目前已有很多算法,BLAST和FASTA都较为不错,在此基础上开发的PSI-BLAST和megaBLAST,可以针对不同的情况,拥有较好的性能。
比对(alignment)是序列比较的一个基本操作,它是对序列相似程度的一种定性描述,通过将两个序列的各个字符(代表核苷酸或氨基酸残基)按照对应等同或者置换关系进行对比排列,来得到两个序列共有的排列顺序。在此基础之上,为满足需求,序列比较还发展出多重序列比对。现有使用最为广泛的多重序列比对程序是ClustalW(ClustalX),通过使用一种渐进的比对方法,在序列的两两比对中,得到一个距离矩阵,反映每对序列的关系。ClustalW主要用来研究多个序列的共性特征,可用于预测基因组序列的功能性区域,或研究功能性蛋白质的物种间进化谱系。
序列之间的重要关系有两种,同源(homology)和相似(similarity)。同源关系表明进行比较的两段序列具有共同的祖先,直向同源关系表明,不同物种的两个同源基因有相同的功能(大多数的管家基因);共生同源则是指具有相同来源基因具有不同的功能,通常由基因组复制产生(如细菌耐药性基因)。两序列相似则表明具有重复序列不一定同源,有可能只是简单重复序列,但两序列同源一般是相似的。
(三)基因组序列分析
伴随着物种测序研究的飞速发展,全基因组的自动注释变得尤为迫切,这一直是生物信息学研究的重要领域。EBI(欧洲生物信息中心)和Sanger研究院合作开发的Ensembl项目,使得大型计算机可以根据已有的蛋白质数据信息对DNA序列进行自动注释,并自动预测基因和调控元件。工作步骤包括确定翻译起始位点、预测开放阅读框和外显子/内含子剪切位点、构建基因结构、构建基因结构、识别各种反式和顺式调控元件、鉴定转录起始位点和可变剪切体等,从而在庞大的数据库中提取生物学信息,给予注释并图形化显示给生物学研究者。
1964年,Pauling等提出了分子进化理论——分子钟理论,他假设生物进化历史的全部信息都储存在核苷酸和氨基酸序列中,并认为在足够大的进化时间尺度下、各种不同的发育系谱中大多序列的进化速率几乎是恒定不变的。因此,生物信息学作为建立在DNA和蛋白质序列比较基础上的学科,发现进化关联、并进行功能比较便成了其研究目的之一。根据一些物种的遗传信息序列特性构建系统发育树,探究构成生物体的生物大分子如蛋白质、核酸的演变,进而了解物种间生物系统的发生关系,有助于佐证生物进化过程及规律。
DNA、RNA和蛋白质不仅是线性高分子,其重复的核苷酸或氨基酸单元还形成一种高度有序的三维结构来完成特定的生物学功能。目前已能够较为容易地通过实验手段来获得组成生物大分子序列的核苷酸或氨基酸排列信息,难点逐渐变为通过计算机分析来获得核苷酸或氨基酸序列数据编码的更高级的结构或者功能信息。
基因组水平的序列分析,包括基因识别、基因组结构分析、基因功能注释、基因调控信息分析和基因组比较。其中,基因识别是基因组序列分析的基础,指在给定的基因组序列中,正确标识基因的范围及其精确定位。基因的结构包括编码区和非编码区,其中编码区可翻译形成蛋白质,非编码区不能翻译形成蛋白质,但与基因的复制、转录、翻译、调控等密切相关。因此,DNA序列作为一种遗传语言,其编码区与非编码区均具有重要作用。在人类基因组中,已知可编码蛋白的部分仅占人类基因组总序列的3%~5%。显然,要在基因组水平人工搜索某一基因序列的工作量是难以想象的,因此我们需要用新的方法去侦测。目前,已有的方法包括开放阅读框(open reading frame,ORF)查找、编码区密码子频率测量