生物信息
生物信息学(bioinformatics)是80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。
生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
数据库(database)是存储在某种存储介质上的相关数据的有组织的集合。
存储生物大分子信息数据的数据库称为分子生物学数据库(molecular biology database),也称生物信息学数据库
数据库,特别是分子生物学数据库,具有三个特征: (1)数据库是可以检索的,即具有检索(index)功能;
(2)数据库应该是定时更新的,即不断有新版内容发布(release); (3)数据库是交叉引用的(cross-referenced),特别是在互联网时代,数据库应该通过超链接(hyperlinks)与其他数据库相连。
一级数据库:直接来源于实验获得的原始数据(DNA序列、蛋白质序列、蛋白质结构等),只经过简单的归类、整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
一级核酸数据库(3):GenBank(美,NCBI)数据库、EMBL数据库(欧EBL)、DDBJ数据库
• 一级蛋白质序列数据库(2):SWISS-PROT库(欧洲瑞士)(该数据库的所有条目都经
过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实,因此又称蛋白质专家库(ExPASy)。、PIR蛋白信息数据库
蛋白质结构库:PDB数据库(protein data bank美)PDB数据库主要可应用于蛋白质结构预测和
结构同源性比较。其中NRL-3D数据库则是PDB数据库中所有已知结构蛋白质数据库
EMB标识字 GenBank标识字 含义 ID LOCUS 序列名称 DE DEFINITION 序列简单说明 AC ACCESSION 唯一的序列编号
SV VERSION 序列版本号
KW KEYWORDS 与序列相关的关键词 OS SOURCE 序列来源的物种名
OC ORGANISM 序列来源的物种学名和分类学位置 DT 建立日期 RN REFERENCE 相关文献编号或提交注册信息 RA AUTHORS 相关文献作者或提交序列作者 RT TITLE 相关文献题目
RL JOURNAL 相关文献刊物名或作者单位 RX MEDLINE 相关文献Medline引文代码 RC REMARK 相关文献注释
RP 相关文献其它注释 CC COMMENT 关于序列的注释信息 DR 相关数据库交叉引用号 FH FEATURES 序列特征表起始 FT 序列特征表子项
SQ BASE CONTENT 序列长度、碱基数目统计数 空格 ORIGIN 序列 // // 序列结束标志、空行 序列号格式举例如下:
Nucleotide Sequence Records Accession Format U12345 or AF123456 RefSeq Protein Sequence Records NP_000483 RefSeq Nucleotide Sequence Records mRNA records (NM_*):NM_000492
genomic DNA contigs (NT_*):NT_000347
complete genome or chromosome (NC_*): NC_000907 genomic region (NG_*): NG000019
Protein Sequence Records from PRF 1901178A 6数字加1字母
SWISS-PROT数据库种主要字段含义
ID Identification 识别行 AC Accession numbers 编号 DT Date 日期 DE Description 描述
GN Gene name 基因名 OS Organism species 生物种类 OG Organelle 细胞器 OC Organism classification 生物分类 RN Reference number 参考号 RP Reference position 参考位置
RC Reference comments 参考注释 RX Reference cross reference 参考引用 RA Reference authors 参考作者 RL Reference location 参考位置 CC Comments or notes 注释 DR Database cross reference 引用数据库 KW Keywords 关键词 FT Feature table data 特征表数据 SQ Sequence header 序列头 blank Sequence data 序列数据 // Termination line 终止行 FASTA格式
该格式要求序列的标题行以大于号“>”开头, “>”后面一般是序列名称或序列描述,下一行起为具体的序列。
通常将以大于号“>”开头的整个序列保存为记事本(.txt)文件
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求
序列比对(Sequence alignment)
序列比对是序列相似性分析的常用方法,又称序列联配。通过将两个或多个核酸序列或蛋白序列进行比对,显示其中相似的结构域,这是进一步相似性分析的基础。通过比较未知序列与已知序列的一致性或相似性,可以预测未知序列功能。
同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。(要么同源,要么不同源)
同源蛋白质的氨基酸序列具有明显的相似性,这种相似性称为序列同源性。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基
顺序所占比例的高低。(相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。) 同源就会有相似,但相似不一定同源
直系同源(orthology)是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。
特征:(1) 在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因; (2) 分布于两种或两种以上物种的基因组;
(3) 功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4) 结构相似;
(5) 组织特异性与亚细胞分布相似。
旁系同源(paralogy)基因是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向(horizontal)产生的几个同源基因。 旁系同源是基因复制的结果,两份拷贝在一个物种的历史上时平行演化的。这样的基因就被称为旁系同源基因 直系和旁系的异同:
直系与旁系的共性是同源,都源于各自的始祖基因。 其区别在于: 在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;
在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。
序列比对分为:整体比对和局部比对
整体比对:对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。 适用于相似度较高且长度相近的序列 如:Needleman-Wunsch算法
局部比对:寻找序列中相似度最高的区域,也就是匹配密度最高的部分。 适用于在某些部分相似度较高,而其他部位差异较大的序列。 如:Smith-Waterman算法
BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度
序列两两比对分析是最简单、最基本的对齐分析。通过比较两条序列之间的相似区
域和保守性位点,寻找二者之间可能的进化关系。
三种方法:点阵分析法 动态规划法:Needleman-Wunsch算法、Smith-Waterman算法 词或K串法(BLAST or FASTA中应用)
Blast是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对
Bl2Seq”是NCBI上Blast程序的一部分,允许两条序列之行局部双序列比对,使用这个程序执行蛋白质(或DNA序列)的双序列比对非常容易。 双序列比对的显著性:一致性百分比
对于有70个氨基酸残基的比对,40%的氨基酸一致性(identities)是一个认为两个蛋白同源
的合理阈值,即它们一般具有相类似的生物学性质;在此标准之下,两条蛋白质序列可能具有相似的功能,也可能是性质上完全不同的蛋白质。
对于DNA序列需要具有75%以上的相似性才可能具有潜在的生物学意义。 多重对比
不同物种中,许多基因的功能保守,序列相似性较高,通过多条序列的比较,发现保守与变异的部分
数据库搜索相似序列的意义 生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
序列的相似性搜索(Sequence similarity searching)是基于序列的比对方法,在互联
网的生物信息学中大规模搜寻已知序列的相似序列,以及对应的结构、基因组和相关文献的过程。
在数据库中进行大规模搜索的目的常常是为了找到同源序列,完成对目的序列的功
能注释,或者判断序列是否属于某一家族,预测序列的结构与功能。
程序 序列 数据库 描述 BLASTP BLASTN BLASTX TBLASTN 蛋白质 核酸 核酸 蛋白质 蛋白质 核酸 蛋白质 核酸 用蛋白质序列检索蛋白质序列数据库 用核酸序列检索核酸序列数据库 用核酸序列检索蛋白质序列数据库 用蛋白质序列检索核酸序列数据库(基于所有可能的6个不同相位编码序列) 用核酸序列检索核酸序列数据库(基于所有可能的6个不同相位编码序列) 用蛋白质序列检索蛋白质序列数据库 用核酸序列检索核酸序列数据库 用蛋白质序列检索核酸序列数据库(基于所有可能的6个不同相位编码序列) 用核酸序列检索核酸序列数据库(基于所有可能的6个不同相位编码序列) TBLASTX FASTA TFASTA 核酸 蛋白质 核酸 蛋白质 核酸 蛋白质 核酸 蛋白质 TASTX 核酸 蛋白质 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
向NCBI提交序列有两个常用的软件:Sequin和BankIt BankIt在线提交序列特点: 适合单个或少量几个的提交
在线的方式提交,无需下载个软件 提交的序列的注释不复杂
提交的序列不需要用到序列的分析,如:16S RNA
核酸序列分析 (crucial)软件操作
5.2分子质量、碱基组成、碱基分布、序列转换、核酸序列基本分析 5.3限制性酶切分析 5.4克隆测序分析
5.5测序中载体序列的识别与去除 5.6核酸序列拼接 5.7核酸序列的电子延伸 5.8开放阅读框(ORF)分析 5.9基因组序列编码区/内含子结构分析 分子系统发育分析
有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任
何节点。
无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。 构建进化树的一般原则 1. 可靠的待分析数据 2. 准确的多序列比对 3. 选择合适的建树方法:
A. 序列相似程度高,MP首先 B. 序列相似程度较低,ML首先 C. 序列相似程度太低,无意义
4. 一般采用两种及以上方法构建进化树,无显著区别可接受 选择外群 (Outgroup)
1. 选择一个或多个已知与分析序列关系较远的序列作为外群 2. 外群可以辅助定位树根
3. 外群序列必须与剩余序列关系较近,但外群序列与其他序列间的差异必须比其他序列之间的差异更显著
系统发育树重建分析步骤
1、多序列比对(自动比对,手工校正) 2、选择建树方法以及替代模型 3、建立进化树mega
4、进化树评估 (自举法(Bootstrap) 系统发育树重建的基本方法 1.距离法 (distance)
2.最大简约法 (maximum parsimony, MP) 3. 最大似然法 (maximum likelihood, ML) 邻接法(Neighbor Joining Method)NJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。 优点:1、可以较快地构建系统树; 2、适用于分析较大的数据集;
3、能够较方便地进行自展(Bootstrap)检验。 最大简约法(Maximum Parsimony Method)
单一位点:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。
简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。 MP法构建系统树的位点: (1)只利用简约信息位点;
(2)既利用简约信息位点,也利用单一位点。
进化通径:考虑任意两个密码子之间变换的可能路径
MP法适用的问题(1)位点不存在回复突变、平行突变;
(2)被分析的序列较长,核苷酸或氨基酸数目很大; (3)序列的相似度较高;
(4)核苷酸或氨基酸替代速率较稳定。 最大似然法(Maximum Likelihood Method)
以下为补充内容,仅供参考
1• 生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?
其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传
信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。
系统发育树的构建方法:
1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到
得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树; 2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数
量对序列进行比较和聚类;
3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该
方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
1、 NCBI维护的核苷酸数据库由哪几部分组成的,其主要的内容是什么? 由三部分组成:表达序列标签序列、基因组测序序列、核心核苷酸序列。
分子进化树的构建主要有哪些算法?
邻接法、最大简约法、最大似然法、贝叶斯法
2. 任选一种分析工具,分析序列AY066019的基因结构及其编码产物的化学性
质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 根据你所选用的分析方法,这条序列编码多少个基因?编码序列的位点?分析结果与事实是否相符合?(7分) 1. 预测的基因位于哪条DNA链上?(6分)
2. 预测基因之一(请注明是第几个基因)编码的蛋白质的分子量和等电点是多少?该蛋白质中哪一种氨基酸的含量最高?(7分)
2. 答题要点:
(1)采用FGENESH分析方法,选择Human参照。该序列包含一个基因,其编码序列是770-955 bp,1562-1607 bp,1795-1842 bp,2144-2565 bp;分析结果与事实符合。
(2)预测的基因位于正链上。
(3)采用ProtParam分析方法,基因编码产物的分子量:25644.4;等电点:6.44;亮氨酸(L)的含量最高。(4)本题也可以采用不同于(1)-(3)的分析方法回答。
4.分析五条DNA序列(X55152、AY888608、X57321、M64087、X66539)的同源性并回答下列问题:
1. 哪两条序列的进化亲缘关系最近?它们之间的同源性是多少? (10分) 2. 哪一条序列与上述其他四条序列均表现出较低的同源性?(10分)
4.答题要点:
(1)X55152和X57321的进化亲缘关系最近,它们的同源性是83%。 (2)M64087与其它四条序列均表现出较低的同源性。
E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义
分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间
系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。
外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种 邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。
最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。
最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。
序列的相似性与同源性有什么区别与联系? 答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的 亲缘关系。
简述邻接法(NJ)构树的算法思想。 答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P117 简述最大简约法(MP)的算法思想。
答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P120
简述最大似然法(ML)的算法思想。
答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。
距离法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。其次基于这个矩阵中的进化距离关系构建进化树。
因篇幅问题不能全部显示,请点此查看更多更全内容