如何进行微生物序列分析？FASTA和BLAST理论介绍，及公共数据库16S序列分析操作教程

来源：武汉市灰藻生物科技有限公司　　浏览量：184　　发布时间：2025-10-30 21:41:07

引言

在基因组学时代，随着DNA和蛋白质序列数据呈指数级增长，如何解读这些生命“密码”成为了关键。生物信息学应运而生，其核心任务之一就是序列分析。

本文将深入探讨序列分析的基石——序列比对，并回顾两大关键工具FASTA与BLAST的发展与革新，从而构建起从理论到实践的完整知识框架。

第一章：序列比对——一切分析的基石

序列比对是生物信息学中最基本、最核心的操作，它通过排列两个或多个序列（核苷酸或氨基酸），来识别它们之间的相似性区域。

1.1 为什么需要序列比对？

序列的相似性往往暗示着功能、结构或进化上的关联性。

通过比对，我们可以：

• 鉴定未知序列：通过与已知序列数据库对比，推测新序列的功能。

• 推断进化关系：构建系统发育树，理解物种或基因间的亲缘关系。

• 识别保守域与模体：找到对功能至关重要的关键区域。

• 预测蛋白质结构：序列相似性高的蛋白质，其三维结构也往往相似。

1.2 比对的核心类型

• 全局比对：试图将两个序列的全长进行对齐，适用于长度和整体相似度都非常接近的序列。Needleman-Wunsch算法是其主要实现方法。

• 局部比对：只寻找序列间相似度最高的局部区域进行对齐，适用于在长序列中寻找保守域或模体。Smith-Waterman算法是其主要实现方法。

# 核心区别：全局比对要求“整体最优”，而局部比对寻找“局部最优”。在实际研究中，由于基因结构域的模块化，局部比对的应用更为广泛。

序列比对

图1、两个序列的全局与局部比对

1.3 两两序列比对的方法

1. 点阵法：

点阵法（又称点图法）是一种图形化的序列比对方法，通过在二维矩阵中比较两个序列来实现。

具体做法是：将两个待比较的序列分别置于矩阵的横轴和纵轴上，然后逐一扫描一个序列中的每个残基，与另一个序列的所有残基进行比较。

若两个残基匹配，则在对应位置标记一个点；否则留空。

• 如果两个序列高度相似，点图将沿主对角线呈现一条清晰的直线；

• 若相似性较低，则点分布更分散，对角线不明显；

• 点图还可用于发现单个序列内部的重复元件：主对角线上下出现的短平行线即表示重复结构。

点阵法

图2、使用点图法比较两个序列的示例

2. 动态规划法：

动态规划法通过比较两个蛋白质或核酸序列中所有可能的字符组合，找出最优比对结果。

该方法既可用于全局比对，也可用于局部比对：

• 全局比对采用 Needleman-Wunsch 算法；

• 局部比对采用 Smith-Waterman 算法。

动态规划法包含以下三个步骤：

• 评分矩阵初始化：构建一个二维矩阵，将两条待比对序列分别置于顶部和左侧。矩阵左上角初始化为0，并根据空位罚分规则进行初始化。

• 填充矩阵：根据评分矩阵逐行填充每个单元格。

• 对于核苷酸序列，匹配得正分，错配得负分；

• 对于氨基酸序列，则使用 BLOSUM 或 PAM 等专业评分矩阵。

算法从左上角开始，逐行向右下角推进，每个单元格填入当前可能的最大得分。

• 回溯（Traceback）：填充完成后，从右下角开始回溯至左上角，寻找得分最高的路径，从而确定最优比对结果。

3. 启发式方法：

为了在速度和灵敏度之间取得平衡而开发的“捷径”算法。它们不保证找到绝对最优解，但能在极短时间内找到非常优异的近似解。这正是FASTA和BLAST成功的关键。

1.4 多序列比对

当需要比较三个及以上序列时，就进入了多序列比对的领域。它对于识别保守区域、构建系统发育树至关重要。

由于计算复杂度极高，通常采用启发式方法，如：

• A. 穷举算法（Exhaustive algorithms）

• 穷举法尝试同时评估所有可能的比对方案。

• 类似于两两比对中的二维动态规划矩阵，多重比对需要构建一个 N 维搜索矩阵（N 为序列数量）。

• 随着序列数量增加，计算时间和内存需求呈指数级增长，因此该方法仅适用于少于10条短序列的小规模数据集。

• 对于大规模数据，通常采用启发式方法以提高效率。

B. 启发式算法（Heuristic algorithm）

i. 渐进法（Progressive method）

又称基于树的算法，通过逐步组装的方式构建多重比对。

步骤如下：

• 使用 Needleman–Wunsch 全局比对法对所有序列进行两两比对，获得相似性得分；

• 将得分转换为进化距离，构建距离矩阵；

• 利用邻接连接法（neighbor-joining）从距离矩阵生成引导树（guide tree）；

• 按照引导树的拓扑结构，从最相近的两个序列开始，逐步加入其他序列，最终完成多重比对。

常用工具包括 Clustal 和 T-Coffee。

渐进法

图3、渐进比对流程

ii. 迭代法（Iterative Method）

迭代法通过反复优化初始的次优比对，逐步逼近最优解。

首先进行初步两两比对以构建系统发育树，并据此赋予权重；

随后识别含空位的区域并反复调整，以提高比对得分；

每次迭代后，基于新比对结果重新计算树、权重和比对，直至得分不再提升。

PRRN 是一个基于迭代法的在线比对程序。

迭代法

图4、PRRN 的迭代比对流程

iii. 基于模块（Block-based）的方法

渐进法和迭代法主要基于全局比对，在处理长度差异大、高度分歧的序列时，难以有效识别保守结构域或基序（motif）。

此时需采用基于局部比对的策略。

模块法正是此类方法之一：它识别所有序列共有的无空位比对片段（称为“模块”或“blocks”），特别适用于功能域分析。

第二章：FASTA——开创性的实践

在动态规划法因计算资源限制而难以实用化之时，FASTA的出现标志着序列数据库相似性搜索的开端。

2.1 FASTA是什么？

FASTA（或称 FastA，全称为 “Fast-All”）是最早被广泛使用的数据库相似性搜索工具之一。

它是一种序列比对工具，可将输入的核苷酸或蛋白质序列与数据库中的序列进行比对。FASTA 最初由 David J. Lipman 和 William R. Pearson 于 1985 年开发，此后不断改进，已广泛应用于多种场景。

由 FASTA 程序衍生出的用于表示核苷酸或蛋白质序列的纯文本文件格式（即 FASTA 格式），如今已成为生物信息学领域的标准格式。许多其他序列数据库搜索工具也采用 FASTA 文件格式。

FASTA 格式

图5、FASTA 格式示例。图片来源：NCBI

2.2 FASTA如何工作？——四步法

FASTA采用了一种多步骤的启发式策略，在保证精度的同时大幅提升速度：

步骤 1：识别高相似区域（Identifying Regions）

首先，FASTA 为查询序列构建一个查找表（lookup table），也称为哈希表（hashing step）。

具体做法是将查询序列分割成若干短片段，称为 k-tuples（k 元组）：

• 对于蛋白质序列，k 通常为 2；

• 对于 DNA 序列，k 通常为 6。

增大 k 值可减少背景噪声（即随机匹配的 k-tuple 数量），从而提高搜索效率和特异性。

构建好查找表后，FASTA 扫描数据库，寻找与查询序列中 k-tuple 匹配的位置。这些匹配在二维矩阵中表现为对角线。程序会保留匹配密度最高的前10条对角线，作为潜在的高相似区域。

FASTA 算法

图6、FASTA 算法示意图（Barton, G.J., 1996）

步骤 2：重新打分（Re-Scoring）

在第二步中，FASTA 对这10条最佳对角线使用合适的打分矩阵进行重新评估：

• 蛋白质比对常用 BLOSUM50 或 PAM 矩阵；

• DNA 比对则使用单位矩阵（identity matrix，即匹配得1分，错配得0分）。

对每条对角线，找出其中得分最高的子区域，这些子区域称为初始区域（initial regions）。

步骤 3：连接阈值（Joining Threshold）

接下来，FASTA 设置一个打分阈值（joining threshold），用于排除不太可能属于最终比对的片段。

数据库中的序列根据初始得分进行排序，只有得分高于阈值的区域才会被保留，并尝试将相邻的高分区域连接起来。

在此过程中，FASTA 允许在对角线之间引入空位（gaps），并施加空位罚分。最终的带空位比对得分 = 区域得分总和 − 空位罚分。该得分用于对数据库序列按相似性排序。

步骤 4：最终比对（Final Alignment）

最后，FASTA 使用带状 Smith-Waterman 算法（banded Smith-Waterman algorithm）对初步比对结果进行精细化优化。

这是一种动态规划算法，能计算出最优比对得分（optimal score, 简称 opt），并用于后续的统计显著性评估。

2.3 FASTA的贡献与特点

• 开创性：首次让科研人员能够快速搜索大型数据库。

• 统计评估：除了E值（期望值，表示随机匹配的概率），FASTA还提供了Z值，用于衡量匹配得分相对于整个数据库得分分布的显著性。

• 程序家族：FASTA发展出一个工具家族，如FASTX（允许翻译DNA并比对蛋白）、TFASTX等，应对不同类型的搜索需求。

第三章：BLAST——效率的革命

尽管FASTA已经很快，但数据的爆炸式增长呼唤更快的工具。1990年，BLAST的横空出世，将数据库搜索的速度和可用性提升到了一个全新的高度，成为了至今最主流的生物信息学工具。

3.1 BLAST是什么？

BLAST（Basic Local Alignment Search Tool）由Stephen Altschul等人开发。其设计哲学与FASTA类似，但在算法细节上进行了优化，实现了速度的飞跃。

BLAST

图7、BLAST，图片来源：NCBI

3.2 BLAST如何工作？——种子延伸策略

BLAST的工作流程更为简洁高效：

BLAST 通过将查询序列与数据库中的序列进行比对，寻找相似区域。它采用启发式算法（heuristic approach），在保证较高灵敏度的同时显著提升搜索速度。

BLAST 的比对过程主要包括以下四个步骤：

步骤 1：构建词表（Seeding）

BLAST 首先将查询序列分割成若干短片段，称为“词”（words），并构建一个查找表（lookup table），这一步也称为“种子生成”（seeding）。

• 对于蛋白质序列，每个词通常由 3 个氨基酸组成；

• 对于DNA 序列，每个词通常为 11 个核苷酸长。

BLAST 工作原理

图8、BLAST 工作原理——步骤 1。图片来源：NLM, NCBI

步骤 2：数据库扫描（Hit Finding）

BLAST 在数据库中搜索包含与查询词完全相同的序列片段。这一步用于快速筛选出可能与查询序列相关的候选数据库序列。

BLAST 工作原理

图9、BLAST 工作原理——步骤 2，图片来源：NLM, NCBI

步骤 3：词匹配打分（Scoring）

对匹配的词使用替换矩阵（substitution matrix）进行打分：

• 蛋白质比对常用 PAM（Percent Accepted Mutations）或 BLOSUM（Blocks Substitution Matrix）矩阵；

• DNA 比对则采用简单的匹配/错配打分（如匹配 +1，错配 -1）。

只有得分超过预设阈值的词才被视为有效“种子”，用于后续扩展。

步骤 4：延伸与高分片段对（HSP）生成

BLAST 从每个有效种子开始，向两端延伸比对，同时持续计算比对得分（使用相同的替换矩阵）。

如果延伸过程中得分因错配或空位而下降至阈值以下，则停止延伸。

最终得到的无空位局部比对区域称为高分片段对（High-scoring Segment Pair, HSP）。

此外，BLAST 还会为每个 HSP 计算一个统计显著性值，即 E 值（Expect value）：

• E 值表示在随机情况下获得当前或更高得分的期望次数；

• E 值越小，比对结果越显著（例如 E 小于 1e-5 通常被认为具有生物学意义）。

3.3 BLAST为何如此成功？

• 无与伦比的速度：其“种子延伸”算法极其高效。

• 用户友好：提供了清晰的网页界面和易于解读的格式化结果。

• 高度的敏感性与灵活性：通过调整词长、打分矩阵等参数，可以平衡速度与灵敏度。

• 强大的工具生态：根据不同的查询序列和数据库类型，BLAST衍生出五大核心变体：

o BLASTN：核酸 vs 核酸库

o BLASTP：蛋白 vs 蛋白库

o BLASTX：核酸（翻译后） vs 蛋白库

o TBLASTN：蛋白 vs 核酸（翻译后）库

o TBLASTX：核酸（翻译后） vs 核酸（翻译后）库

总结

回顾这三部分内容，我们可以清晰地看到一个承前启后、不断优化的技术发展脉络：

1. 理论基础

序列比对提供了整个领域的数学和概念基础。它告诉我们什么是“相似”，以及如何通过动态规划等方法找到“最优”的相似性。这是“道”。

2. 开创性实践

FASTA是将理论应用于大规模实际问题的一次伟大实践。它通过启发式方法（k-tuple、重新评分、连接），在可接受的时间内实现了数据库搜索，是“术”的突破。

3. 效率革命

BLAST在FASTA的基础上，对“术”进行了极致优化。其“种子延伸”策略更加激进和高效，结合友好的界面和强大的统计（E值），最终使其成为全球生物学实验室的标配工具，完成了从“可用”到“好用”的革命。

如何在FASTA和BLAST之间选择？

• 默认选择BLAST：在绝大多数情况下，BLAST因其速度和便捷性是首选。它的E值统计非常直观。

• 当BLAST无果时尝试FASTA：由于算法差异，FASTA有时能发现BLAST遗漏的微弱相似性（特别是在涉及复杂模式或远缘同源时）。

• 特定场景：FASTA的某些特定程序（如FASTX/Y在解决含有移码错误的序列时）可能更有优势。

操作教程

如何在NCBI或EZBio-cloud比对菌种16S序列，以ATCC 25259 脱氮硫杆菌 Thiobacillus denitrificans为例

一、NCBI：

• 打开NCBI首页（https://www.ncbi.nlm.nih.gov/）

• 点击右侧“BLAST”

NCBI比对

• 点击最左侧“Nucleotide BLAST”

NCBI比对

• 在“Enter accession number(s), gi(s), or FASTA sequence(s) ”中输入测序公司提供的序列，或下方直接选择相应的【seq】文件，随后点击最下方“BLAST”按钮

NCBI比对

• 等待1分钟左右

NCBI比对

• 分析比对结果。

NCBI比对

二、EZBio-Cloud：

• 打开EZBio-Cloud：首页（https://www.ezbiocloud.net/）

• 点击“16S-based ID”

EZBio-Cloud比对

• 点击“Identify new sequence”

EZBio-Cloud比对

• 在弹出的框内输入序列名字、序列，点击“NEXT”

EZBio-Cloud比对

• 点击“Submit”

EZBio-Cloud比对

• 等待1分钟左右，进行结果分析。

EZBio-Cloud比对

参考文献

1、https://microbenotes.com/local-global-multiple-sequence-alignment/

2、https://microbenotes.com/fasta/

3、https://microbenotes.com/blast-bioinformatics/

技术支持Technical Support

联系我们CONTACT US

如何进行微生物序列分析？FASTA和BLAST理论介绍，及公共数据库16S序列分析操作教程

引言

第一章：序列比对——一切分析的基石

第二章：FASTA——开创性的实践

第三章：BLAST——效率的革命

总结

操作教程

参考文献

相关产品

友情链接

社交媒体

联系我们