
出版社: 科学
原售价: 88.00
折扣价: 69.60
折扣购买: 生物信息学(第二版)
ISBN: 9787030681010
第1章 绪论
我们处在一个激动人心的时代——基因组时代。科学的进步已使人类可以窥探生命的奥秘,甚至包括人类自身。人类基因组在世纪之交被人类自己破译了,这部由30亿个字符组成的人类遗传密码本已活生生地摆在了我们面前。与此同时,来自其他生物的基因组信息源源不断地从自动测序仪中涌出,堆积如山,浩如烟海。这些海量的生物信息主要由特殊的“遗传语言”——DNA的4个碱基字符(A、T、G和C)和蛋白质的20个氨基酸字符(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V)写成。
Science杂志在2001年2月16日人类基因组专刊上发表了一篇题为《生物信息学:努力在数据的海洋里畅游》(“Bioinformatics—Trying to Swim in A Sea of Data”)的文章(Roos,2001),文章写道:“我们身处急速上涨的数据海洋中 我们如何避免生物信息的没顶之灾呢?”近年来高通量测序技术的出现,使数据海洋更添排山倒海之势。生物信息学便是使我们可以畅游数据海洋的一条“轻舟”(甚至“快艇”)。生物信息学是一门年轻的学科,它充满挑战和机遇,引人入胜。
第一节 生物信息与生物信息学
一、迅速增长的生物信息
近20年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅速形成了巨量的生物信息库。这里所指的生物信息包括多种数据类型,如分子序列数据(核酸和蛋白质)、蛋白质二级结构和三维结构数据等(详见第2章)。由测序仪等产生的大量核酸序列和三维结构数据被存储在各类数据库中,这些原始数据构成的数据库就是所谓的初级数据库(primary database);那些由原始数据分析而来的如功能区(domain)、二级结构、疏水位点等数据,则组成了所谓的二级数据库(secondary database)。
生物信息的增长是惊人的。近年来随着高通量测序技术的出现,核酸库的数据每14个月左右就要翻一番。2000年底,国际公共核酸数据库数据超过了100亿个碱基对(GenBank Release 120,2000)(图1.1),2020年4月已达到4158亿个碱基对,如果再加上更加巨大的基因组测序数据(GenBank将其单独列为WGS类数据,7.8万亿个碱基对),国际公共核酸序列数据已达到近8.2万亿个碱基对或14.8亿条序列数据。大量生物(包括人类自身)的整个基因组序列被测序完成或正在进行中,遍布世界各地的科研实验室或商业服务公司的高通量测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入公开或内部的生物信息库中。同时,由这些原始数据获得的蛋白质序列等数据信息,也被世界各地的分子生物学、生物信息学等学科领域的专家深入分析,进一步挖掘出重要信息(如功能域)并存入二级数据库中(详见第3章)。
迅速膨胀的生物信息给科学家们提出了一个新问题:如何有效管理、准确解读和充分使用这些信息?
二、生物信息学概念
生物信息学学科是在生物信息急剧膨胀的压力下诞生的。生物信息学的诞生和发展最早可以追溯到20世纪60年代,而“生物信息学”(bioinformatics)一词被人们认识则是在20世纪90年代(详见本章第二节)。
一般意义上,生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等的一门学科。它通过综合利用分子生物学、遗传学、计算机科学与技术,来揭示大量且复杂的生物数据所赋有的生物学奥秘。具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得基因序列和蛋白质编码区的信息后,进行蛋白质功能、结构的模拟和预测等;然后依据特定蛋白质的功能进行必要的药物设计等一系列应用性研究。从生物信息学研究的具体内容来看,生物信息学应包括三个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据的新工具。Claverie(2000)的描述给出了一个比较清晰的定义:“生物信息学是利用信息来理解生物学的一门科学,是一门探究基因组或蛋白质序列数据信息的学科。它涉及数据库的相似性搜索、序列间比较,或者基于已有知识对序列进行预测”。根据Wikipedia有关“bioinformatics”的词条解释,生物信息学是统计学和计算机科学在分子生物学领域应用的一门学科。20世纪80年代晚期,生物信息学主要集中在基因组学和遗传学领域,特别是基因组DNA大规模测序出现后。生物信息学的根本目标是增加对生物学过程的认识,具体而言,它更加注重发展和应用有效的计算方法(如模式识别、数据挖掘、机器学习算法和可视化技术)来达到这一目标。目前该学科主要的研究领域包括序列联配、基因预测、基因组拼接、药物设计和筛选、蛋白质结构预测、基因表达和蛋白质互作预测、全基因组关联和进化分析等。图1.2给出了生物信息学早期的一个“路线图”。
新的生物信息学分析软件都是商业化产品,不付费难以取得。“你最终还是需要具体的实验”。实验生物学家非常羡慕生物信息学家,认为“他们只是敲敲键盘,然后便是写论文”,他们的研究结果只是一种试验结果的预测,是对实验研究的一种“支持”。在分子生物学研究中,固定的模式是先有某一假设,然后用某一实验去验证或支持这一最初的猜测。在生物信息学研究中,也同样进行着这一模式:有一无效假设(如某一序列在数据库中没有同源序列),然后进行实验(如搜索数据库)并验证,明确拒绝还是接受无效假设(如该序列的确有或无同源序列)。这是一个标准的假设—实验模式。在其他学科中,计算科学已被作为深入理解科学问题的重要手段,而在生物学领域还没有形成这样的共识。“生物信息学是门新技术,但只是一门技术而已”,由此把生物信息学仅定位为一门新的应用性学科。正如前面所说,虽然生物信息学是一门新学科,但在20世纪60~70年代,该学科最重要的一些算法便已被提出,生物计算和理论研究已形成雏形。把生物信息学仅仅认为是一门应用技术、是将从信息学移植来的技术应用于生物学科领域,这是一个致命的误解。生物信息学实际是一门具有丰富知识内涵的学科,它有很多尚待解决的科学问题,这些问题包括生物学方面的(如分子的功能如何进化)和计算方面的(如数据库系统间如何最有效地协同)。生物信息学不仅是一个技术平台,它同样需要周密的实验计划和准确的操作,同样需要丰富的想象和一瞬即逝的运气。
第二节 生物信息学历史与展望
一、发展简史
生物信息学的诞生和发展最早可以追溯到20世纪60年代。1962年,诺贝尔奖得主鲍林(Linus Pauling)提出基于蛋白质序列的分子进化理论,标志着生物信息学的来临。“bioinformatics”一词最早由荷兰理论生物学家Paulien Hogeweg于1978年提出(Hogeweg,1978a;Hogeweg and Hesper,1978b)。根据她的回顾文章,她及团队成员于20世纪70年代便在荷兰乌得勒支大学(Utrecht University)开始使用“生物信息学”一词,用于定义他们开展的生物系统的信息学研究(“the study of informatic processes in biotic systems”)(Hogeweg,2011)。这之前普遍认为“生物信息学”一词在1990年才出现(Claverie,2000),由出生于马来西亚的华裔学者林华安(Hwa A. Lim)首次提出。据说1987年他在佛罗里达州立大学任教期间,认为生物学和信息学结合交叉是未来发展趋势,构思了“bioinformatics”一词作为这个新领域的名字,并于1990年组织了第一届生物信息学与基因组研究国际会议(Bioinformatics and Genome Research International Conference)。一般认为生物信息学学科的开创者为Margaret Dayhoff(第3章“历史与人物”短文)、Michael Waterman(第4章“历史与人物”短文)和David Sankoff(简介扫右侧二维码可见)等人。
生物信息学发展过程中的主要事件(表1.1),不少在“生物信息学”一词出现前便已发生了。纵观生物信息学的发展历史,可以分为4个主要阶段:①萌芽期(20世纪60~70年代),以Dayhoff的替换矩阵和Needleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本内容——序列联配。它们的出现,代表了生物信息学的萌芽,以后的发展基本是在这两项内容上的不断改善。1977年,Rodger Staden发表利用计算机处理数据的文章,开创了生物信息学工具开发的先河,持续开发并最终成就分子生物学领域第一个免费软件包Staden。②形成期(20世纪80年代),以分子数据库和BLAST等数据库序列搜索程序为代表。1981年国际上第一个核酸序列数据库EMBL Data Library诞生,1982年GenBank成立(前身为Los Alamos Sequence Data Bank),之后联合建立国际公共核苷酸序列数据库。同时为了有效管理与日俱增的数据,以BLAST、FASTA等为代表的数据库工具软件和相应的新算法被大量提出和研制,极大地改善了我们管理和利用分子数据的能力。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位。③基因组与互联网时期(20世纪90年代至2005年),以基因组测序及其拼接与分析技术为代表。基因组测序计划,特别是人类基因组计划的实施,产生以亿计的分子数据;基因组平上的分析使生物信息学的优势得以充分表现,基因组信息学成为生物信息学中发展最快的学科前沿。Philip Green开发的Phred-Phrap-Consed系统软件包1993年问世,1995年已广泛应用于鸟枪法测序中序列碱基识别、拼装和编辑等,是当时人类基因组等测序计划的主要生物信息学软件,与BLAST一起在人类基因组计划的研究历史中占有一席之地(详见Science 2001年2月人类基因组专刊的“A History of Human Genome Project”一文)。由于互联网的普及,这个时期还有一个重要进展就是在线数据库和生物信息学分析平台的出现。1993年,欧洲分子生物学实验室(EMBL)在互联网上公布了世界上第一个核苷酸序列数据库(EMBL Nucleotide Sequence Data Library);1994年,NCBI开始提供GenBank等在线服务。在此阶段,生物信息学已成为举世瞩目、各国竞相发展的热点学科。GenBank数据库中直线上升的数据增长趋势(图1.1)正是生物信息学发展的写照。生物信息学在这十余年间经历了长足的发展,并迅速成为生命科学新的生长点。人类基因组计划的实施和生物医药工业的介入是生物信息学迅猛发展的主要推动力。④高通量测序技术时期(2005年至今),以第二代和第三代测序技术及其相关数据分析方法为代表。高通量测序技术彻底改变了生物信息学研究对象(序列)的产生数量、成本、特征和应用领域等,它带来了一系列生物信息学方法的变革和创新,如基因组拼接方法等。该技术使特定生物群体在基因组水平遗传变异的检测成为可能,基于如此大规模基因组水平的遗传变异数据(如SNP)可以从根本上改变我们的许多研究思路和水平,例如,个性化医疗使基于生物信息学的遗传诊断更加便捷和准确(所谓精准医疗),作物基因组设计育种和基因组选择育种成为可能。
表1.1 生物信息学学科发展的主要事件