生物进化系统发育树的基本概念、构建步骤和具体应用
来源:武汉市灰藻生物科技有限公司 浏览量:278 发布时间:2025-11-10 20:57:34
引言
系统发育树是一种,以图形方式表示生物序列进化历史的方法,可视化物种间的进化关系。
进化解释了地球生命的多样性,理解进化关系,有助于理解不同生物体的起源和关系。
分子系统发育学,通过DNA或蛋白质序列等分子数据,创建系统发育树,帮助理解进化历史和关系。

图1、系统发育树部分
系统发育树的组成部分
发育树以二维图表形式显示,分支代表了不同生物类群的进化历史和亲缘关系。
分支的端点代表现今的物种或序列,被称为分类单元或操作分类单元。
分支连接处称为节点,代表了连接到这些分支的生物体或序列的共同祖先。
树底部开始分叉的点被称为根节点,它代表了树中所有成员的共同祖先。
系统发育树的类型
系统发育树有几种不同的类型,可根据以下方式分类:
基于是否存在共同根节点
• 有根树:这种树有一个指定的根节点,代表了树中所有生物的共同祖先。
• 无根树:这种树没有指定的根节点,仅显示分类单元或OTU之间进化关系的分支模式,不包含关于它们共同祖先的信息。

图2、有根和无根的系统发育树
基于拓扑结构
• 分支图:这是一种仅显示生物之间进化关系分支模式的系统发育树。分支图是非标度的,意味着分支长度不反映分类单元或OTU之间的进化分歧程度。
• 系统发育图:这种系统发育树通过显示分支模式和进化分歧程度来表示生物之间的进化关系。系统发育图是标度的,意味着分支长度与进化分歧的程度成正比。

图3、分支图和系统图
系统发育树构建步骤
1. 分子标记的选择
构建系统发育树的第一步是,选择合适的分子标记。分子标记的选择,取决于序列的特征和研究目的。可以使用核苷酸或蛋白质序列数据。
对于亲缘关系较近的生物,核苷酸序列更可取;而对于分歧较大的类群,可以使用进化较慢的核苷酸序列或蛋白质序列。
蛋白质序列在许多情况下优于核苷酸序列,因为它们更保守,并且由于拥有更多的字符(氨基酸),可以进行更灵敏的比对。
尽管蛋白质序列为系统发育分析提供了若干好处,但在某些情况下,DNA序列也能提供有价值的信息,尤其是在处理亲缘关系较近的序列时。
2. 多序列比对
选择了分子标记后,下一步是对来自不同物种的序列进行比对。这是最关键的一步,因为最终系统发育树的准确性取决于比对的质量。
可以使用如T-Coffee等比对程序。Gblocks是自动化程序之一,可以通过消除比对不佳的位置和差异较大的区域来帮助改善比对结果。
3. 进化模型的选择
进化模型是描述序列随时间替换和分歧的统计模型。对于核苷酸和氨基酸,有几种可用的模型。
两种常用的核苷酸模型是Jukes-Cantor模型和Kimura双参数模型。也有许多氨基酸替换模型,最常用的是Dayhoff模型和Jones-Taylor-Thornton模型。
4. 系统发育树的构建
下一步是构建系统发育树。构建系统发育树的两种主要方法是,基于距离的方法和基于特征的方法。
基于距离的方法依赖于计算序列间的不相似程度,而基于特征的方法则使用来自单个分类单元的分子序列来追溯共同祖先的特征状态。
5. 树可靠性的评估
最后一步是评估系统发育树的可靠性。这可以通过一种称为自助法的统计方法来完成,用于评估系统发育树拓扑结构的可靠性。
它涉及反复对初始序列数据进行重采样,生成多个衍生序列的子集,称为自助样本。然后使用这些样本,采用与原始树相同的方法构建新的系统发育树。
新树准确预测的内部分支被赋值为1。这个过程重复多次,并计算每个内部分支获得1的百分比,作为自助值或置信度。
通常认为自助值达到95或以上表示拓扑结构准确,这些值以百分比形式显示在系统发育树的分支上。除了自助法,也可以使用其他重采样策略,如刀切法和贝叶斯模拟。

系统发育树的构建可以概括为以下五个核心步骤:
1. 选序列:根据研究物种的亲缘关系远近,选择合适的分子标记(DNA或蛋白质序列)。
2. 做比对:将不同物种的序列进行对齐,这是决定树准确性的最关键步骤。
3. 选模型:选择一个合适的序列进化模型,以描述序列之间的替换规律。
4. 建树:使用选定的模型和方法(如基于距离或基于特征的方法)计算并构建出树的拓扑结构。
5. 评估:通过自助法等统计方法评估树的分支可靠性,最终得到一棵带有置信值的系统发育树。
核心关系:多序列比对是基础,进化模型是理论依据,而树评估是保证结果可靠的必要环节。
系统发育树构建方法
构建系统发育树的方法可分为两大类型:
1. 基于距离的方法
基于距离的建树方法涉及使用替换模型计算序列间的进化距离,然后利用这些距离构建一个距离矩阵。再使用该距离矩阵构建系统发育树。两种流行的基于距离的方法是UPGMA和NJ。
• a. 非加权组平均法
UPGMA是最简单的基于距离的方法,它通过顺序聚类构建一个有根的系统发育树。
首先,通过两两比对比较所有序列,计算距离矩阵。
使用该矩阵,将具有最小两两距离的两个序列聚类成一个对。在它们之间的中点放置一个节点。
接着,重新计算这个对与所有其他序列的距离,形成一个新的矩阵。
使用这个新矩阵来识别并聚类最接近第一个对的序列。
重复此过程,直到所有序列都被放置在树上。
UPGMA方法假设所有分类单元的进化速率恒定,并且它们与根节点的距离相等,这表明存在分子钟机制。
• b. 邻接法
邻接法是使用最广泛的基于距离的方法。
它在使用距离矩阵构建树方面与UPGMA方法类似,但它不假定分子钟,并且产生一个无根树。
邻接算法从一个完全未解析的星状树开始,所有序列都连接到一个单一节点。
然后,它迭代地在两个最近的邻居和树中剩余序列之间添加分支。该算法计算所有序列之间的两两距离,并利用这些距离来确定最近的邻居。
一旦确定了最近的邻居,算法就将它们合并成一个新节点,从而重构星状树。
重复此过程,直到所有序列在一个完全解析的树中连接起来。
2. 基于特征的方法
基于特征的方法通过直接检查序列特征来分析序列数据,而不是依赖于两两距离比较。这些方法通过一次分析一个特征或位点来同时评估所有序列。
基于特征的方法通常被认为比基于距离的方法更准确。然而,基于特征的方法计算强度更大,并且需要更复杂的统计模型。
最大简约法和最大似然法是两种最常用的基于特征的建树方法。
• a. 最大简约法
最大简约法是一种基于特征的方法,它选择进化变化次数最少或总分支长度最短的树。
首先,进行多序列比对以识别序列中相互对应的潜在位置。
分析每个比对位点,找出产生观察到的序列变化所需进化改变次数最少的树。
对序列比对中的所有位点重复此过程,并选择在所有位点上产生总体变化数最低的树。
这种方法最适用于相对相似的序列和少量序列的情况。
• b. 最大似然法
最大似然法是一种统计方法,它使用概率模型来识别最有可能产生观测数据的树。
与最大简约法类似,该方法在分析过程中评估多序列比对的每一列。
然而,与最大简约法不同,最大似然法考虑所有可能解释观测数据的树。
计算每棵可能树的似然值,并选择概率最高的树作为序列最可能的进化历史。

系统发育树的主要构建方法可分为两大类:
1. 基于距离的方法
o 核心思想:先计算序列间的进化距离,再根据距离远近构建树。
o 主要方法:
UPGMA:假设进化速率恒定(分子钟),会生成一棵有根树。
邻接法:不假设分子钟,应用最广,生成一棵无根树。
2. 基于特征的方法
o 核心思想:直接分析序列的每一个位点(特征),寻找最能解释所有位点进化历史的树。
o 主要方法:
最大简约法:选择所需进化改变次数最少的树。计算快,适用于相似度高的序列。
最大似然法:在给定进化模型下,选择出现观测数据概率最高的树。结果更可靠,但计算量最大。
选择关系:基于距离的方法通常更快,适合大数据集初步分析;基于特征的方法(尤其是最大似然法)更精确,是当前构建可靠系统发育树的主流选择。
系统发育树的应用
系统发育树有各种实际应用,包括:
• 研究不同物种之间的进化关系,并理解随时间推移的进化过程。
• 研究物种的多样性和分布,并制定保护策略以保护濒危物种和生态系统。
• 识别病原体的起源并追踪疾病的传播。
• 用于法医学,以识别在犯罪现场发现的生物样本的来源,并将嫌疑人与罪行联系起来。
• 根据生物体的DNA序列以及形态上的相似性和差异性来组织和分类生物体及物种非常有用。
总结
综上所述,系统发育树作为揭示生物进化关系的核心工具,在理论研究与实际应用中均具有重要意义。通过合理选择分子标记、高质量的多序列比对、恰当的进化模型以及可靠的建树方法,研究者能够构建出反映真实进化历史的系统发育树。尽管不同建树方法各有优劣,但结合自助法等评估手段可有效提升结果的可信度。如今,系统发育树不仅推动了进化生物学、分类学和生态学的发展,还在疾病溯源、生物多样性保护和法医学等领域发挥着关键作用,是连接过去与现在、理解生命之树的重要桥梁。
参考文献
1、https://microbenotes.com/phylogenetic-tree/
敬请关注“灰藻视界”,共筑健康未来!
— 武汉市灰藻生物科技有限公司团队敬上
灰藻生物:我们期待着与客户共同成长,共创生命科学的美好未来!
更新日期:2025-11-08
编制人:小灰
审稿人:小藻