go和kegg富集分析全面解析：是什么、为什么、哪里做、怎么做

【go和kegg富集分析】全面解析：是什么、为什么、哪里做、怎么做

在现代分子生物学研究中，我们经常通过高通量技术（如RNA测序、蛋白质组学、基因组关联研究等）获得大量的基因或蛋白质列表。这些列表可能包含数百甚至数千个在不同条件下发生显著变化的分子。直接从这样的长列表理解其整体生物学意义是一项艰巨的任务。这时，功能富集分析就成为了一个不可或缺的工具。GO富集分析和KEGG富集分析是其中最常用、最强大的两种方法。

GO和KEGG富集分析是什么？

简单来说，GO和KEGG富集分析是一种统计方法，用于识别在一个给定的基因或蛋白质列表中，哪些预定义的生物学功能、细胞组分、分子功能（GO分析）或哪些特定的信号通路、代谢通路（KEGG分析）出现的频率显著高于在参考基因集（背景集）中随机出现的频率。

Gene Ontology (GO) 富集分析

是什么？
GO（基因本体论）是一个结构化的、受控的词汇表，用于描述基因或基因产物在生物体中扮演的角色。它分为三个独立的本体论分支：
- 生物过程 (Biological Process, BP): 描述一系列有序的分子功能或分子过程的组合，以达到某个生物学目标（如细胞周期、信号转导）。
- 细胞组分 (Cellular Component, CC): 描述基因产物所在的细胞结构或亚细胞位置（如线粒体、细胞膜）。
- 分子功能 (Molecular Function, MF): 描述单个基因产物在分子水平上进行的活性（如酶活性、转录因子活性）。
GO富集分析就是检测您的基因列表在GO层级结构中的哪些节点（即哪些特定的BP、CC、MF术语）上是显著富集的。

KEGG (Kyoto Encyclopedia of Genes and Genomes) 富集分析

是什么？
KEGG是一个整合了基因组、化学和系统功能信息的数据库。其中，KEGG Pathway是最常用的部分，它包含了一系列人工绘制的生物分子相互作用和反应网络，代表了细胞内的各种信号转导通路、代谢途径、疾病通路等。
KEGG富集分析就是检测您的基因列表在KEGG数据库的哪些通路图上是显著富集的。

为什么要做GO和KEGG富集分析？

功能富集分析的核心价值在于将庞杂的分子列表转化为更易于理解和解释的生物学概念。

从列表到功能： 高通量实验的输出往往是基因ID或名称的列表。这些列表本身难以直接揭示生物学全貌。富集分析将这些离散的基因关联到更高层次的通路或功能模块，帮助研究者理解这些基因集合共同参与了哪些生物学活动。
识别关键通路/功能： 通过统计学检验，富集分析能够找出那些在您的基因列表中“过代表”的生物学功能或通路。这些被显著富集的项目往往与您研究的生物学问题（如疾病状态、发育阶段、环境响应等）密切相关，是潜在的关键调控机制或效应器。
聚焦研究方向： 面向大量基因列表，研究者很难决定从何入手进行后续的详细机制研究。富集分析结果提供了聚焦的靶点，例如，“免疫应答”相关的GO BP术语显著富集，或者“Wnt信号通路”在KEGG中显著富集，这为后续的实验设计和方向选择提供了有价值的线索。
验证或提出假设： 如果富集结果与先前的知识或研究者的预期一致，这可以支持已有的假设。如果出现意料之外的富集项，则可能提出新的生物学假设，引导新的研究方向。

简而言之，GO和KEGG富集分析将“哪些基因变了”的问题转化为“这些变化的基因共同提示了什么生物学功能或通路正在发生变化”的问题。

在哪里进行GO和KEGG富集分析？

进行GO和KEGG富集分析有多种工具和平台可供选择，它们各有特点，适用于不同的场景和用户需求。

在线工具 (Web-based Tools)

无需编程基础，通常只需要上传基因列表，操作简便，适合初学者和快速分析。

DAVID (Database for Annotation, Visualization and Integrated Discovery): 一个老牌且广泛使用的平台，集成了多种注释资源和富集分析工具。
Metascape: 提供一站式的富集分析和整合分析服务，支持多种物种和注释数据库，结果可视化效果较好，并能发现功能模块之间的关系。
Enrichr: 快速、易用的在线工具，拥有丰富的基因集库，包括GO、KEGG以及多种其他类型的富集分析选项。
g:Profiler: 支持多种物种，提供GO、KEGG、Reactome等多种数据库的富集分析，结果简洁清晰。
KOBAS (KEGG Orthology Based Annotation System): 专注于KEGG通路富集分析，也支持GO等。

编程语言包 (R/Python Packages)

提供更大的灵活性和自动化能力，适合需要批量分析、定制化分析或集成到更大数据分析流程的研究者。

R/Bioconductor:
- clusterProfiler: 由余光创教授开发，功能强大且全面，支持多种富集分析（GO、KEGG、Reactome等），多种物种，以及丰富的可视化选项，是目前R语言中最流行的富集分析包之一。
- topGO: 专注于GO富集分析，提供考虑GO术语之间层级关系的算法。
- GOseq: 适用于RNA-Seq数据，可以校正基因长度对富集分析的影响。
Python: 也有一些用于富集分析的库，但目前相对不如R/Bioconductor生态成熟和流行。

选择哪个工具取决于您的数据量、生物物种、编程能力、对结果可视化的需求以及是否需要定制化分析。对于大多数用户而言，从易用的在线工具开始是一个不错的选择。

需要多少基因进行富集分析？

这个问题没有一个严格的最小或最大基因数量限制，但有一些实际的考量。

最小基因数： 如果您的基因列表非常小（例如只有几个基因），那么它们很难在统计学上显著富集到任何一个较大的生物学功能或通路中。即使这几个基因都属于同一个通路，由于样本量太小，统计检验可能也无法达到显著水平。一般建议输入的基因列表至少包含几十个基因。当然，即使是小列表，尝试分析也无妨，只是期望得到显著结果的可能性较低。
最大基因数： 输入的基因列表可以很大，例如几百甚至几千个基因。但如果列表包含了研究背景下几乎所有的基因（例如，差异表达分析时使用了非常宽松的筛选条件），那么富集分析的结果可能会变得不特异，许多大的、通用的功能或通路都可能显示为富集，难以从中提取关键信息。
影响因素： 真正影响富集分析“能力”的不是列表的总基因数，而是这个列表中有多少基因属于某个特定的GO术语或KEGG通路，以及这个术语或通路在整个背景集中包含多少基因。一个包含大量基因但这些基因分布在各种不相关的功能中的列表，其富集结果可能不如一个包含少量基因但这些基因高度集中在某个特定功能中的列表更有意义。
常见的输入： 典型的输入基因列表通常来自差异表达分析（筛选后的差异表达基因）、蛋白质组学研究中差异表达的蛋白质、基因组关联研究（GWAS）中鉴定的显著关联基因等。这些列表的大小通常在几十到几百个基因之间，这个范围通常比较适合进行有效的富集分析。

如何进行GO和KEGG富集分析？（操作步骤）

富集分析的基本流程是相似的，无论您使用在线工具还是编程包。以下是通常的步骤：

准备输入基因列表：
- 确定您的研究中发生了变化的基因列表。这通常是经过统计检验和筛选（如p值、FDR、Fold Change阈值）后的基因集。
- 确保您的基因列表使用了一种标准化的基因标识符（如Entrez Gene ID、Ensembl ID、官方基因Symbol）。不同的工具支持的ID类型不同，可能需要进行ID转换。
选择背景基因集 (Background Gene Set)：
- 背景集是指您的输入基因列表是从哪个基因集合中挑选出来的。这个选择对统计结果至关重要。
- 最常见的背景集是您研究物种的全基因组。
- 但更准确的背景集应该是您进行初始筛选（如差异表达分析）时考虑的所有可检测到的基因。例如，如果您进行RNA-Seq分析，背景集应该是所有在您的样本中检测到表达的基因；如果使用特定芯片，背景集应是芯片上所有的基因。使用正确的背景集可以避免因技术平台或表达谱偏差导致的假阳性富集。
- 大多数在线工具或包默认使用全基因组作为背景，但高级用户应该考虑提供更合适的背景集。
选择富集分析工具/平台：
- 根据您的需求（易用性、灵活性、物种支持、可视化等）选择一个合适的工具，如前面提到的DAVID、Metascape、clusterProfiler等。
上传或输入数据并配置参数：
- 将您的输入基因列表（和背景集，如果需要）上传到在线工具或加载到编程环境中。
- 选择物种： 务必选择与您的研究数据对应的物种。
- 选择数据库： 勾选您想要进行富集的数据库，通常包括GO (BP, CC, MF) 和 KEGG。
- 选择统计方法： 最常用的是基于超几何分布的统计检验。许多工具会默认使用此方法。
- 选择多重检验校正方法： 由于同时对许多GO术语或KEGG通路进行检验，需要校正P值以降低假阳性率。常用的方法包括Benjamini-Hochberg (FDR)、Bonferroni等。FDR是目前最推荐的方法，因为它在控制假阳性率的同时提供了更高的检测能力。
- 设置P值/FDR阈值： 设置一个界限来判定富集是否显著，通常使用校正后的P值（FDR）小于0.05作为显著性标准。
- 设置基因集大小过滤： 一些工具允许设置一个最小和最大的基因数量限制，以过滤掉包含基因太少（结果不稳定）或太泛（缺乏特异性）的富集项。
运行分析：
- 点击运行或执行相应的代码命令。
下载并解读结果：
- 分析完成后，下载结果表格。结果通常包含以下几列信息：
  - Term/Pathway ID: 富集到的GO术语或KEGG通路的唯一标识符。
  - Description: 术语或通路的文字描述。
  - Count in list: 您的输入基因列表中有多少个基因属于这个术语或通路。
  - Size in background: 背景基因集中有多少个基因属于这个术语或通路。
  - P-value: 原始的P值，表示观察到这种富集程度的概率。
  - Adjusted P-value (FDR): 经过多重检验校正后的P值，是判断显著性的主要依据。
  - Fold Enrichment (富集倍数): (Count in list / Total genes in list) / (Size in background / Total genes in background)。表示该术语或通路在您的列表中的频率是背景中的多少倍。通常，富集倍数较高的显著项更值得关注。
- 根据Adjusted P-value (FDR) < 0.05 (或您设定的阈值) 来识别显著富集的GO术语和KEGG通路。
- 结合Fold Enrichment和基因计数，评估富集结果的强度和支持度。
- 将显著富集的结果与您的生物学背景和实验目的联系起来进行解释。哪些功能或通路与您研究的现象一致？是否有新的发现？
结果可视化：
- 为了更直观地展示和理解结果，可以使用条形图、气泡图、富集网络图等进行可视化。许多工具提供了内置的可视化功能，或者可以使用R包（如clusterProfiler）进行高度定制的可视化。

如何解读GO和KEGG富集分析结果？

解读富集分析结果不仅仅是看哪些P值最小。它需要结合生物学知识进行综合判断。

关注 Adjusted P-value (FDR): 这是最重要的指标，它告诉您富集结果的统计学可靠性。FDR < 0.05通常被认为是显著的。
考虑 Fold Enrichment: 高富集倍数意味着该术语或通路在您的基因列表中出现的频率远高于随机情况，这增加了结果的生物学意义，尤其是在比较不同富集项时。
查看基因数量 (Count): 属于富集项的基因数量也很重要。包含基因数量太少（例如只有1-2个）的富集项，即使统计显著，也可能不如包含多个基因的富集项可靠或具有代表性。
理解GO层级关系： GO术语是层级结构化的。一个特定的术语（如“T细胞激活”）可能会被富集，同时它更广义的父辈术语（如“免疫应答”）也可能被富集。解读时需要理解这些关系，可以使用工具（如REVIGO）来减少冗余，聚焦于最有代表性的术语。
结合生物学背景： 富集结果必须结合您的实验设计和生物学知识来理解。显著富集的通路或功能是否与您观察到的表型、处理条件或疾病状态相符？这些结果是否提供了新的机制解释或研究方向？
关注KEGG通路图： 对于KEGG富集结果，最好能够查看显著富集通路对应的KEGG通路图，并将您的基因映射到图上，直观地了解它们在该通路中的位置和作用。
多角度验证： 富集分析结果是假设产生的工具。重要的发现应该通过其他实验方法（如qPCR验证关键基因、Western Blot验证关键蛋白、细胞或动物模型实验）进行进一步的验证。

总之，GO和KEGG富集分析是强大的生物信息学工具，能够帮助研究者从海量的高通量数据中提取有意义的生物学见解。掌握其原理、操作方法和结果解读技巧，对于现代生命科学研究至关重要。

go和kegg富集分析