
出版社: 科学
原售价: 128.00
折扣价: 101.12
折扣购买: DNA和蛋白质序列数据分析工具(第三版)
ISBN: 9787030345097
第1章 序列比对工具BLAST和ClustaIX
骆迎峰 丁文超 程尹 陈辰 薛庆中
序列比对是基因组学研究的核心手段之一,从测序拼接到基因表达分析都需要将未知序列和数据库中的已知序列进行相似性比较。序列比对工具很多,其中以基小局部比对搜索工具( BLAST,basic local alignment search tool)最为常用。生物不同基因的DNA序列或氨基酸序列通过比对,可以在相应数据库中找到相同或相似序列。本章主要介绍美国国家生物技术信息中心( The National Center for Biotechnology Information,NCBI)数据库提供的BLAST搜索在线服务及本地运行程序,用户可以通过提交核苷酸或蛋白质序列,并选择所要比较的NCBI序列数据库,进行序列相似性(Sequence similarity)搜索。本章还将介绍多序列比对工具ClustalX的使用方法,以便预测基因的功能,探索物种的亲缘关系及其进化。
1.1 BLAST搜索程序
NCBI的BLAST搜索程序; “下设3个部分(图1.1):崩BLAST拼接的参考基因组(BLAST Assembled RefSeq Genome)、基faiIYJ BLAST( Basic BLAST)、特殊的BLAST( Specialized BLAST)。
图1.1 NCBI/BLAST主界面
1.1.1 用BLAST拼接的参考基因组
在做BLAST搜索前,用户可根据白己的需求,选择与某个特定物种(special genome)基因组数据库或所有拼接的基因组参考序列数据库BLAST。如选择后者,点击list all genomic BLAST databases后,从图1.2可知目前正在测序或已完成测序的物种及其数量,包括:脊椎动物( Vertebrates)26种、无脊椎动物(Invertebrates) 16种、原生动物(Protozoa) 18种、植物(Plants) 47种、真菌(Fungi) 17种。
图1.2 基因组参考序列数据库
1.1.2 基础的BLAST
确定了相应的数据库,接下来是选择搜索方法。表1.1列出了BLAST家族的5个子程序及其查询序列、数据库、搜索方法。子程序nucleotide blast( blastn)和protein blast( blastp)最为常用,使用也较简便,可以直接进行比对,搜索时只需将查询序列粘贴到搜索框中,点击BLAST即可完成。其中,blastn用来发现高分值匹配的核酸序列,而blastp能发现氨基酸残基的相似性和找到其同源蛋白。
与前两个子程序相比,后三个子程序【blastx、tblastn和tblastx)搜索过程较为复杂,在比对前需要先经过“翻译”。例如,运行blastx需先将查询序列翻译成蛋白质序列,tblastn需将核酸数据库中的序列翻译成蛋白质序列,而tblastx需对查询序列和数据库中的核酸序列都进行翻译。现以blastx为例(图1.3),说明核苷酸序列翻译后可能生成6种蛋白质序列。
图1.3核苷酸序列翻译后可能生成6种蛋白质序列
假设目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC,理论上此核苷酸序列翻译时,可以分别从查询序列的正向链或反向互补链的1、2、3相位起始。
正向链(5 7—3 7端)
(1)第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC
(2)笫二位起始:TG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC
(3)第三位起始:GAGT ACC GCT AAA TTA GTT AAA TCAAAA GCG ACC AAT CTG CTT TAT ACC CGC反向链(3 7—5 7端)
(4)第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT
(5)第二位起始:CG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT
(6)第三位起始:GGGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT
上述目标序列翻译后便会产牛相应的6个不同相位的氨基酸序列:
结果如图1.4所示(注: “一”为终止子)。
图1.4 目标序列6个可读框及翻译结果
通过blastx程序比对,将匹配分值最高的序列视为最有可能表达的靶标核苷酸序列。本例最佳比对为MSTAKLVKSKATNLLYTR(图1.5),暗示该序列是从向第一位起始翻译,由此说明,blastx子程序在编码区分析时,可对相位的确定起一定作用。
图1.5 blastx叱对最优结果
1.1.2 网上blastx比对工具
在BLAST主界面点击“blastx”(图¨),进入序列提交界面(图1.6)。该界面由输入查询序列( Enter Query Sequence)、搜索设置选项(Choose Search Set)和算法参数设置(Algorithm Parameters)(图1.7)三部分组成。
图1.6 blastx序列提交界面
图1.7 blastx序列提交界面中的算法参数设置选项
(1)输入查询序列:用户可以在提交框中直接输入NCBI数据库GI号(每行1个号),或粘贴序列;也可以点击“浏览”( Browse)接钮上传保存在本地的fasta格式序列文件。网。卜运行BLAST服务允许选择比对两条或多条序列(Align two or more sequences)。此时,比对序列必须采用fasta格式。为方便管理,用户可以为BLAST搜索任务命名(Job Title)。在本例中,填入的fasta格式序列名称是“lesson.seq.screen.Contig34”,相应地,搜索任务名称自动变为“lesson.seq. screen.Contig34” (图1.6)。若提交的是单条fasta格式序列,默认搜索任务就是该序列名称。
(2)搜索设置:本例选择的数据库(Database)为默认的非冗余蛋白库(nr)。物种( Organism)选择填入“human”;密码子表(Genetic code)采用默认标准密码子。在“Entrez Query” 中町选择使用布尔表达式(Boolean expression)。
(3)算法参数设置:
a)通用的参数( General Parameters)设置包括:最多靶序列数(Max target)和期望阈值(Expect threshold,简称E值)、搜索词大小(Word size)、查词区域最多匹配数(Max matches in a query range)。E值表示存数据库搜索时与期望值随机匹配的可能性,E-l表示匹配是随机产生的;反之,E-O表示匹配不是随机产生的,由此可见,设置的E值越小,置信度就越高(图1.7)。
b)记分参数:蛋白质序列相似性通常采用突变数据(mutation data,MD)和BLOSUM两种矩阵估算。突变数据基于可接受点突变(point accepted mutation,