在生物信息学研究中,理解基因或蛋白质的功能是核心任务之一。KEGG (Kyoto Encyclopedia of Genes and Genomes) 和 GO (Gene Ontology) 是两个最常用的、功能强大的数据库和知识库,用于对生物分子进行功能注释和通路分析。虽然它们都被用来理解生物功能,但它们在涵盖的信息类型、组织结构以及应用侧重点上存在显著区别。理解这些区别对于有效利用它们进行生物学数据解释至关重要。

什么是KEGG?包含哪些信息?

KEGG 是什么?

KEGG 是一个整合的生物信息学资源,它将基因组信息与高阶功能信息(主要是分子网络和通路)联系起来。你可以将其理解为一个巨大的知识库,它试图描绘生物系统中分子之间相互作用形成的复杂网络。

KEGG 主要包含哪些信息?

KEGG 的信息被组织在几个核心数据库中,其中与功能分析最密切相关的是:

  • KEGG Pathway: 这是KEGG最著名的部分,包含大量手工绘制的生物通路图谱。这些通路图详细展示了分子(如基因、蛋白质、小分子)在特定生物过程中如何相互作用,包括代谢通路、信号转导通路、疾病相关通路、遗传信息处理通路等。每条通路都是一个相对独立的分子相互作用网络。
  • KEGG Module: KEGG Module 是通路中的功能模块,通常是通路中的一个特定子结构或反应单元,如一个酶复合体、一个信号级联的特定分支或一个代谢途径的关键步骤。模块的概念比完整的通路更灵活,可以帮助识别不同生物体中保守的功能单元。
  • KEGG Orthology (KO): KO 系统是KEGG的核心概念之一,它将来自不同物种的同源基因聚类,代表一个功能单元。KO 号码常用于跨物种的功能比较和通路映射。例如,多个物种中催化同一个反应的酶会被赋予同一个KO号。
  • KEGG Genes: 包含世界各地已测序基因组的基因信息,并与KO、Pathway、Module等进行关联。
  • KEGG Genome: 包含已完成或正在进行的基因组测序项目信息。
  • KEGG Compound, Glycan, Reaction, Enzyme, Drug, Disease, etc.: 包含通路中涉及的小分子化合物、聚糖、酶促反应、药物、疾病等信息,提供了通路背景下的详细分子信息。

总的来说,KEGG 提供的信息侧重于分子在构成网络和通路时所扮演的角色以及它们之间的相互作用关系

什么是GO?包含哪些信息?

GO 是什么?

GO 是 Gene Ontology 的简称,是一个结构化的、控制词汇表(本体论),用于描述基因和基因产物在生物学中的功能。它的目标是提供一个标准化的、独立于物种的方式来描述基因产物的功能属性。

GO 主要包含哪些信息?

GO 本体论由大量的“GO Term”(GO术语)组成,这些术语通过明确定义的相互关系(如“is_a”、“part_of”)连接起来,形成一个有向无环图 (DAG)。这些术语被组织在三个独立的、结构相似的本体论领域中:

  • 生物过程 (Biological Process, BP): 描述基因产物参与的宏观生物过程或途径。这是一个过程,通常涉及多个分子活动。例如:细胞凋亡 (apoptosis)、信号转导 (signal transduction)、DNA修复 (DNA repair)。
  • 细胞组分 (Cellular Component, CC): 描述基因产物所在的细胞结构或亚细胞位置。例如:细胞核 (nucleus)、线粒体 (mitochondrion)、细胞膜 (plasma membrane)。
  • 分子功能 (Molecular Function, MF): 描述基因产物执行的具体的、离散的分子活动。这描述的是“做了什么”,而不是“在哪里做”或“为什么做”。例如:酶活性 (enzyme activity)、转录因子活性 (transcription factor activity)、受体结合 (receptor binding)。

每个GO Term都有一个唯一的ID和名称,以及定义和相关的同义词等信息。GO 提供的信息侧重于基因产物作为独立的分子所具备的功能属性所在的细胞位置以及参与的生物过程

KEGG和GO的核心区别是什么?(是什么类型的知识)

这是理解两者差异的最关键点。

KEGG 描述的是分子在构成的网络和通路中所扮演的角色和相互作用。GO 描述的是基因或基因产物作为个体所拥有的功能属性(它们能做什么、在哪里、参与什么过程)。

  • KEGG: 关注于分子的集合如何协同工作,形成一个系统性的过程(通路或模块)。它提供的是一张“地图”,显示分子之间的连接和流动。
  • GO: 关注于单个分子自身的性质。它提供的是一张“功能列表”,描述分子自身的特征。

用一个比喻来说:如果生物系统是一个复杂的电路板,GO 术语就像是描述每个电子元件(如电阻、电容、晶体管)自身的属性(电阻值、电容值、放大能力)。而 KEGG 通路就像是电路板上的特定电路图,显示这些元件如何连接起来执行一个特定的功能单元(如一个放大器电路、一个电源稳压电路)。一个元件(基因产物)可能拥有多种属性 (GO terms),同时参与到多个不同的电路 (KEGG pathways)。

KEGG和GO的信息结构有何不同?(如何组织信息)

两者在组织信息的方式上也有显著差异:

  • KEGG: 主要通过绘制通路图谱来组织信息。通路图是图形化的表示,直接展示分子之间的相互作用(如激活、抑制、修饰、转运等)以及它们如何在过程中转换。通路之间可以相互关联,形成更复杂的网络,但核心单元是相对独立的图。
  • GO: 通过有向无环图 (DAG) 来组织 GO Term。DAG 结构允许一个术语有多个“父”术语(更广泛的概念)和多个“子”术语(更具体的概念)。例如,“糖酵解”(glycolysis) 是一个生物过程 (BP),它“is_a”代谢过程 (metabolic process),同时它“part_of”葡萄糖代谢 (glucose metabolic process)。这种层级结构允许我们在不同的粒度级别上描述基因产物的功能。

这种结构上的差异直接影响到如何检索和理解信息:KEGG 更适合通过查看通路图来直观理解分子的作用和相互关系;GO 更适合通过浏览层级结构来查找特定功能,或者通过术语之间的关系进行推理。

如何将我的基因/蛋白质列表与KEGG或GO关联?(如何使用)

将研究中得到的基因或蛋白质列表(例如,差异表达基因)与 KEGG 或 GO 信息关联是功能分析的常见步骤。这个过程通常被称为功能富集分析 (Functional Enrichment Analysis)。

  • 关联到 KEGG: 通常通过将你的基因列表映射到 KO (KEGG Orthology) 号码或直接使用基因ID(如果KEGG支持你的物种)来实现。然后,分析工具会检测你的基因列表中哪些 KEGG Pathway 或 KEGG Module 被显著富集,即你的基因列表中的基因在这些通路或模块中出现的频率远高于随机预期。
  • 关联到 GO: 通过将你的基因/蛋白质列表与它们已知的 GO Term 注释关联。然后,分析工具会检测你的基因列表中哪些 GO Term(来自BP, CC, MF三个领域)被显著富集。这表明你的基因列表中的基因倾向于执行某种特定的分子功能、位于某个特定的细胞位置或参与某个特定的生物过程。

许多生物信息学工具和在线平台都提供了执行 KEGG Pathway 富集分析和 GO Term 富集分析的功能。例如,DAVID, Metascape, ClueGO (Cytoscape插件), 以及许多测序数据分析流程自带的模块。

在哪里可以访问KEGG和GO的数据和工具?(在哪里)

访问 KEGG:

KEGG 的官方网站是 https://www.genome.jp/kegg/。在这里你可以浏览 KEGG 的各种数据库、搜索基因、通路、模块、化合物等。虽然KEGG的部分内容是开放的,但商业使用或大规模的数据下载可能需要许可证。一些其他平台也可能会整合和展示KEGG数据。

访问 GO:

GO本体论和相关的注释数据主要由 GO Consortium 维护和提供。主要的访问途径包括:

  • GO Consortium 网站: https://geneontology.org/ 提供GO本体论文件下载、文档和相关信息。
  • AmiGO: http://amigo.geneontology.org/amigo 是一个常用的在线浏览器,用于搜索GO Term、查看GO本体论结构以及检索基因的GO注释。
  • QuickGO: https://www.ebi.ac.uk/QuickGO/ 是欧洲生物信息学研究所 (EBI) 提供的另一个强大的GO浏览器,提供丰富的搜索和过滤功能。
  • 许多基因/蛋白质数据库(如UniProt, NCBI Gene)都会在其条目中包含 GO 注释信息。

功能富集分析中,KEGG结果和GO结果如何解读和互补?(如何解读)

在功能富集分析中获得 KEGG 富集通路列表和 GO 富集术语列表是非常常见的。这两类结果提供了不同层面和角度的信息:

  • KEGG 富集结果的解读: 如果某个 KEGG Pathway 被显著富集,这表明你的基因列表中的基因很可能在该通路的生物过程中协同发挥作用。这直接指向了受研究条件影响的具体分子网络或信号通路。你可以进一步查看该通路图谱,确定你的基因在通路中的位置和潜在作用。
  • GO 富集结果的解读: 如果某个 GO Term 被显著富集(例如,某个分子功能MF或生物过程BP),这表明你的基因列表中的基因倾向于执行该特定的分子功能或参与该特定的生物过程。如果富集的是细胞组分CC,则表明你的基因倾向于定位在某个特定的细胞结构中。GO结果提供了基因列表的功能“画像”。

互补性: KEGG 和 GO 结果是高度互补的。

  • KEGG 提供的是一个“全景图”,展示分子如何在通路中协作,但可能无法涵盖所有的分子功能或细胞位置。
  • GO 提供的是单个分子的“细节描述”,涵盖了更广泛的功能属性,并且其层级结构允许你在不同抽象级别上理解功能,但它本身并不直接展示分子间的相互作用网络。

结合使用两者可以提供更全面的功能理解。例如,KEGG 分析可能揭示某个信号通路被激活,而 GO 分析则可能告诉你该通路中的关键酶具有某种特定的磷酸化酶活性(MF)并定位于细胞膜上(CC),同时这些基因也参与了细胞增殖过程(BP)。

许多分析工具也允许同时运行 KEGG 和 GO 富集分析,并提供整合的视图或可视化工具,帮助用户更全面地解释结果。

KEGG和GO涵盖的生物体范围和数据量有何差异?(多少)

尽管具体数字会随时间不断更新,但可以描述它们在覆盖范围和数据量上的总体特点:

  • KEGG: 涵盖了大量的已测序物种,特别是模式生物和在医学、工业中有重要应用的物种。其 Pathway 数据库也在不断扩展,涵盖了越来越多新发现的通路和疾病关联。由于其是基于KO系统进行跨物种映射的,因此在比较基因组功能方面很有优势。数据量巨大,包含基因组、通路、模块、化合物、药物等多种类型的信息。
  • GO: 作为本体论,其结构本身是独立的物种的。然而,具体的基因/蛋白质与 GO Term 的关联(即 GO 注释)是针对每个物种进行的。主要的模式生物和研究较多的物种通常拥有最丰富的 GO 注释数据。随着高通量实验和生物信息学方法的进步,越来越多的基因组获得了 GO 注释。GO 的数据量体现在其不断增长的术语数量以及与基因/蛋白质关联的注释数量上。

在实际使用中,一个基因列表能关联到多少 KEGG 通路或 GO Term,取决于该物种在这些数据库中的数据完善程度以及该基因本身的研究程度。

总结

KEGG 和 GO 都是强大的生物信息学资源,但服务于不同的目的并采用不同的组织方式。KEGG 更侧重于分子的网络和通路层面的功能,提供分子相互作用的系统视图;而 GO 更侧重于单个分子的功能属性和位置,提供标准化、层级化的功能描述词汇表。在进行功能分析时,理解两者的区别并结合使用,能够帮助研究者从不同角度全面深入地理解基因或蛋白质的功能以及它们在生物过程中的作用。

kegg和go的区别