生物体内的细胞并非孤立存在,它们在特定组织结构中协同作用,形成复杂的微环境。传统的基因表达分析方法,如批量RNA测序(Bulk RNA-seq)和单细胞RNA测序(scRNA-seq),虽然在基因表达量和细胞异质性方面提供了宝贵的洞察,但它们往往丢失了细胞在组织中的原始空间位置信息。这导致我们难以理解基因表达模式与组织形态、细胞间相互作用及疾病发生发展之间的精确关联。正是在这样的背景下,空间转录组分析(Spatial Transcriptomics Analysis)应运而生,它以其独特的优势,为我们打开了探索组织微环境基因表达奥秘的新窗口。
什么是空间转录组分析?
空间转录组分析是一种革命性的分子生物学技术,旨在测量组织切片中基因的表达水平,同时保留这些基因表达在原始组织结构中的精确空间位置信息。简单来说,它不仅告诉我们“哪些基因在表达”,更重要的是告诉我们“这些基因在组织的哪个位置表达”。
核心理念与数据产出
其核心理念是将基因表达数据与组织学图像相结合。通过特殊的文库制备和测序或成像方法,空间转录组分析能够生成一个包含数万甚至数百万个“空间像素点”或“细胞”的基因表达矩阵,每个点都与组织切片上的一个特定坐标关联。这些数据通常以高分辨率的组织图像为背景,使得研究人员可以直接在形态学背景下观察基因表达的分布模式。
与传统方法的区别
- 与批量RNA测序(Bulk RNA-seq)的区别: 批量RNA测序对大量细胞进行均质化处理后进行测序,得到的是平均化的基因表达谱,完全丧失了细胞的空间位置信息和组织异质性。空间转录组分析则克服了这一缺陷,能够揭示组织内部不同区域、不同细胞群的基因表达差异。
- 与单细胞RNA测序(scRNA-seq)的区别: 单细胞RNA测序能够解析细胞层面的异质性,识别新的细胞类型,但通常需要将组织解离成单个细胞悬液,这一过程会破坏细胞在组织中的空间关系。空间转录组分析则在保持组织完整性的前提下,获取基因表达的空间分布,从而能够识别空间上相关的细胞群落、微环境区域以及细胞间的近距离相互作用。
主要技术平台
目前,空间转录组分析技术百花齐放,主要分为两大类:
- 基于捕获探针/珠的技术(Capture-based):
- 10x Genomics Visium: 这是目前应用最广泛的平台之一。它使用载玻片上排列的微小捕获点(通常直径为55微米),每个点上都带有独特的空间条形码和寡核苷酸dT。组织切片贴附在载玻片上,RNA释放后被捕获点上的探针捕获并进行逆转录。测序后,通过空间条形码将基因表达数据映射回原始位置。每个点通常捕获约1-10个细胞的RNA。
- 10x Genomics Visium HD: Visium的升级版,通过更高密度的捕获点和更小的像素尺寸,大幅提升了空间分辨率,理论上可达单细胞甚至亚细胞分辨率。
- 基于原位成像的技术(In situ imaging-based):
- MERFISH(Multiplexed Error-Robust Fluorescence In Situ Hybridization): 通过多轮荧光杂交和成像,对单个RNA分子进行直接计数和定位,能够实现单细胞甚至亚细胞分辨率的数十至数万个基因的精确测量。
- STARmap(Spatially Resolved Transcriptomics by Amplification and Readout): 结合原位扩增和三维成像,在组织中直接对RNA分子进行可视化和计数,同样能达到单细胞分辨率。
- CosMx Spatial Molecular Imager (NanoString): 一种基于多重荧光原位杂交的平台,能够同时检测数百至数千个RNA或蛋白质靶标,并提供单细胞和亚细胞分辨率。
- Xenium In Situ (10x Genomics): 同样是高通量、单细胞分辨率的原位分析平台,能够检测数百个基因,并与Visium形成互补。
为何我们需要空间转录组分析?
空间转录组分析的重要性在于它能够弥补传统方法在获取完整生物学信息方面的不足,并提供前所未有的洞察力。
弥补传统Bulk RNA-seq的不足
想象一个复杂的城市,Bulk RNA-seq只能告诉你这个城市有多少人、多少车、多少商店,但无法告诉你这些元素在城市的哪个区域,是商业区、住宅区还是工业区。因此,你无法理解城市的功能分区和相互作用。
类似地,传统Bulk RNA-seq通过对整个组织样本进行研磨,将所有细胞的基因表达平均化,从而掩盖了组织内部不同区域或不同细胞群体的基因表达异质性。例如,在肿瘤样本中,肿瘤细胞、免疫细胞和基质细胞的比例及空间关系对肿瘤的进展和治疗反应至关重要。Bulk RNA-seq无法区分这些区域的特异性基因表达模式,而空间转录组分析则能清晰地描绘出肿瘤边界、免疫细胞浸润区域以及肿瘤微环境的分子特征。
超越单细胞RNA-seq的维度
单细胞RNA-seq可以告诉你城市里每个人的职业、爱好,但当你把他们打散后再分析,就失去了他们在城市里居住和工作的位置信息,以及他们作为邻居、同事之间的互动关系。
虽然单细胞RNA测序能识别出样本中的所有细胞类型,并解析它们的分子特征,但其最大的局限在于需要将组织解离成单细胞悬液,从而丢失了细胞在组织中的原始空间位置。而许多重要的生物学过程,如细胞分化、组织器官发育、疾病的发生发展和免疫反应,都高度依赖于细胞间的相互作用和其在组织中的精确空间定位。空间转录组分析能够将单细胞的分子特征与它们的空间位置联系起来,揭示细胞如何在其局部微环境中相互影响,形成功能性的组织结构。
解锁组织微环境的复杂性
通过整合基因表达与空间信息,空间转录组分析能够:
- 识别空间异质性: 精确识别组织中具有独特基因表达谱的特定区域或微环境,例如肿瘤核心、肿瘤边缘、间质区域、炎症中心等。
- 解析细胞间相互作用: 基于空间上相邻细胞的基因表达,推断细胞之间的配体-受体相互作用,从而深入理解细胞通讯网络。
- 追踪疾病进展: 在疾病样本中,可以观察到疾病发生、发展不同阶段的基因表达空间变化,识别与疾病进程相关的关键细胞和信号通路。
- 发现新的生物标志物和治疗靶点: 通过识别特定病理区域的特异性基因表达,为疾病诊断、预后评估和药物开发提供新的候选靶点。
典型应用场景及其提供的独特洞察
- 肿瘤学: 揭示肿瘤微环境(TME)的复杂性,包括免疫细胞浸润模式、肿瘤细胞异质性、基质重塑以及耐药机制。例如,在胰腺癌中识别出与治疗反应相关的免疫抑制微环境区域。
- 神经科学: 绘制大脑区域特异性的基因表达图谱,解析不同神经元类型在特定脑区的功能,研究神经退行性疾病(如阿尔茨海默病、帕金森病)中神经炎症和神经元损伤的空间模式。
- 发育生物学: 追踪胚胎发育过程中细胞命运决定和器官形成的空间动态变化,理解形态发生背后的分子机制。
- 免疫学: 分析炎症、感染或自身免疫疾病中免疫细胞在组织中的招募、定位和功能,识别免疫反应的关键调控区域。
- 组织工程与再生医学: 评估再生组织的细胞组成和成熟度,优化组织工程策略。
空间转录组分析的适用范围与样本要求
空间转录组分析广泛适用于各种具有复杂组织结构和细胞异质性的生物学系统,尤其适用于疾病研究和发育生物学领域。
常用样本类型
空间转录组分析通常以以下形式的样本进行:
- 新鲜冷冻组织切片(Fresh Frozen Tissue Sections): 这是目前最常用的样本类型,因为RNA在冷冻状态下相对稳定,且能够最大限度地保留基因表达信息。组织切片通常厚度在5-10微米之间。
- 福尔马林固定石蜡包埋(FFPE)组织切片: 随着技术的进步(如10x Genomics Visium FFPE、NanoString GeoMx DSP等),FFPE样本也逐渐变得可用。FFPE样本具有大量的临床病理存档,为回顾性研究提供了巨大潜力,但其RNA质量可能因固定和处理过程而有所下降。
对样本质量的要求较高:
- 完整性: 组织形态完整,无明显损伤或裂痕。
- RNA质量: 确保RNA降解程度低,RIN(RNA Integrity Number)值达到相应平台的要求(通常RIN≥7为佳)。对于FFPE样本,则关注DV200(RNA片段长度大于200nt的百分比)。
- 切片质量: 切片均匀,无折叠、气泡或组织脱落。
生物学问题领域与具体实例
- 肿瘤学:
- 识别肿瘤边界内外癌细胞、免疫细胞、成纤维细胞的空间分布及相互作用。
- 解析肿瘤侵袭前沿的基因表达特征,预测转移风险。
- 评估肿瘤对免疫治疗的反应,识别耐药机制。
- 神经科学:
- 构建特定脑区(如海马体、皮层)的细胞类型和基因表达空间图谱。
- 研究阿尔茨海默病中淀粉样斑块或Tau蛋白缠结周围的神经元和胶质细胞反应。
- 探索精神疾病(如抑郁症、精神分裂症)中特定脑区的功能障碍和分子病理。
- 发育生物学:
- 跟踪胚胎心脏、肺、肾脏等器官发育过程中细胞谱系的起源和分化路径。
- 解析不同发育阶段的组织结构形成和细胞命运决定的空间模式。
- 免疫学与感染:
- 分析炎症性肠病(IBD)肠道黏膜中免疫细胞浸润和细胞因子表达的空间分布。
- 研究感染性疾病(如COVID-19)中病毒复制区域及其周围宿主免疫反应。
- 心血管疾病:
- 分析心肌梗死后心脏修复过程中的纤维化区域、炎症细胞浸润和血管新生。
实验设置与环境考量
空间转录组分析的实验操作通常在具备分子生物学和病理学操作条件的实验室进行。需要超净工作台确保无菌、无RNase环境。由于涉及到组织切片和荧光成像,还需要具备冰冻切片机、荧光显微镜等设备。数据分析则需要高性能计算资源。
空间转录组分析的成本与数据规模
空间转录组分析因其技术复杂性和数据量巨大,通常成本较高,且会产生大量数据。
实验成本估算
空间转录组分析的成本因所选平台、实验规模(样本数量)、测序深度和服务提供商而异。以下是一个大致的成本构成和范围:
- 试剂盒成本: 这是主要支出之一。例如,10x Genomics Visium试剂盒,单个载玻片(通常可放置1-4个组织切片)的试剂成本可能在2000-5000美元之间,具体取决于产品类型(新鲜冷冻或FFPE)和通量。其他原位成像平台(如MERFISH、CosMx、Xenium)的试剂成本也相当可观,通常按样本数计费。
- 测序成本: 测序深度需求较高,特别是Visium这类平台,每个样本可能需要数亿至数十亿条测序读段。根据不同的测序平台(如Illumina NovaSeq)和测序中心定价,每个样本的测序费用可能在1000-3000美元或更高。
- 仪器折旧与维护: 如果是自行购买和运行仪器(如10x Genomics Chromium X、Xenium),则需要考虑数万到数十万美元的设备投资和日常维护费用。
- 人工成本: 熟练的实验操作人员和生物信息学分析人员的投入。
综合来看,一个使用Visium平台的小型项目(例如,3-5个样本)总成本可能在1万-3万美元,而大型项目或使用高分辨率原位成像技术则可能达到数万至数十万美元。
数据生成量与数据深度
- 文件大小: 空间转录组分析会生成大量的原始数据。一个Visium样本,其原始测序数据(FASTQ文件)可能达到数十GB到数百GB。图像数据(TIFF文件)也通常较大。经过处理和分析后,生成的文件(如H5AD或RDS格式的Seurat对象)也可能达到数百MB到数GB。
- 基因/位点数量:
- Visium: 每个捕获点可以检测到数千到上万个基因。一个Visium切片通常有数千个捕获点(例如,新鲜冷冻载玻片约5000个点)。
- 高分辨率原位成像技术: MERFISH、CosMx、Xenium等技术能够实现单细胞级别的检测,在一个样本中可以检测数万到数十万个细胞,每个细胞测量数百到数千个基因,产生的数据量更为庞大。
- 数据深度: 测序深度直接影响可检测到的基因数量和表达定量精度。通常建议每个样本进行高深度测序,以确保捕获到低丰度基因的表达。
实验周期与通量考量
- 实验周期: 从组织切片到获得原始数据,整个实验流程通常需要数天到一周。文库制备需要1-2天,测序则根据测序仪的运行周期而定。
- 数据分析周期: 数据分析是耗时且计算资源密集的部分。根据项目的复杂性、数据量和分析人员的经验,可能需要数周甚至数月完成深入分析。
- 通量: 不同平台的通量不同。Visium一个载玻片可以处理1-4个样本,而一些更高通量的自动化系统则可以同时处理更多样本。原位成像平台通常单次处理的样本数量较少,但每个样本获取的数据量巨大。
如何进行空间转录组分析?
空间转录组分析是一个多学科交叉的复杂过程,涉及湿实验操作和干生物信息学分析两大主要环节。
实验工作流程
以10x Genomics Visium平台为例,其湿实验流程通常包括以下关键步骤:
-
组织样本准备与质控
- 组织获取: 新鲜组织通常在手术后立即进行快速冷冻(如液氮速冻),以最大限度地保留RNA完整性。
- 组织切片: 使用冷冻切片机(Cryostat)将冷冻组织切成5-10微米厚的薄片,并将其贴附在Visium空间基因表达载玻片上。载玻片上预先排布了带有空间条形码的捕获探针。
- 组织成像与HE染色: 在贴附后,对组织切片进行光学成像(如明场成像),并进行H&E(Hematoxylin and Eosin)染色,以提供形态学背景,用于后续数据配准。染色后需要再次成像。
- 组织透化(Permeabilization): 使用特定的试剂(如酶)温和地处理组织切片,使细胞膜变得通透,从而释放细胞内的mRNA,使其能够扩散并被载玻片上的捕获探针捕获。透化时间是关键步骤,需根据组织类型进行优化。
-
文库制备:空间标记与逆转录
- mRNA捕获与逆转录: 释放的mRNA通过其Poly(A)尾巴与载玻片上捕获探针的oligo(dT)序列结合。接着,通过逆转录将mRNA合成为带有空间条形码的cDNA。
- 空间条形码标记与第二链合成: 生成的cDNA带有独特空间条形码,表示其在组织中的原始位置。随后进行第二链cDNA合成。
- 组织解离与文库扩增: 将组织从载玻片上解离下来,通过PCR扩增带有空间条形码和基因信息的cDNA,并引入测序接头。
- 文库质控: 对构建好的文库进行质量控制,包括文库浓度、片段大小分布等,确保文库符合测序要求。
-
测序与图像获取
- 测序: 将制备好的文库送至高通量测序平台(如Illumina NovaSeq),进行双端测序。一端读段包含基因的序列信息,另一端读段包含空间条形码和UMI(Unique Molecular Identifier)信息。
- 图像处理: 将H&E染色后的组织图像数字化,为后续的生物信息学分析提供可视化基础。
数据计算分析流程
空间转录组数据的分析是整个工作流中最为复杂且专业的部分,需要借助专业的生物信息学工具和算法。
-
原始数据预处理与质量控制
- 图像与测序数据整合(Alignment): 使用平台提供的软件(如10x Genomics的Space Ranger)将原始的测序数据(FASTQ文件)与对应的组织图像进行配准。该软件会自动识别条形码、去除低质量读段,并将每个空间捕获点的基因表达数据与H&E图像上的相应位置关联起来。
- 生成空间基因表达矩阵: 这一步的产出是一个矩阵,行是基因,列是空间捕获点(或细胞),矩阵中的数值表示每个基因在每个空间捕获点(或细胞)的表达量。
- 质量控制(QC): 评估每个捕获点或细胞的测序深度、UMI数量、检测到的基因数量以及线粒体基因比例等,去除低质量的数据点,以确保后续分析的准确性。
-
数据标准化与降维
- 数据标准化: 由于不同空间点捕获的RNA量可能存在差异,需要进行标准化以消除批次效应和测序深度的影响。常用的方法包括SCTransform、LogNormalize等。
- 特征选择: 识别高变基因,这些基因在不同空间区域或细胞类型之间表现出显著变异,有助于区分不同的空间模式。
- 降维: 使用主成分分析(PCA)、均匀流形近似与投影(UMAP)或t-分布随机邻域嵌入(t-SNE)等算法将高维基因表达数据映射到二维或三维空间,以便于可视化和聚类。
-
空间聚类与组织区域识别
- 无监督聚类: 基于降维后的数据,使用聚类算法(如Louvain、Leiden、K-means)将具有相似基因表达模式的空间捕获点聚集成不同的群组。
- 空间域识别: 结合聚类结果和空间位置信息,识别组织中具有独特分子特征的离散空间区域(Spatial Domains)。例如,肿瘤区域、免疫浸润区域、正常组织等。一些专门的空间聚类算法(如BayesSpace、stLearn)可以更好地利用空间信息进行聚类。
- 手动注释: 结合H&E染色图像上的形态学特征和已知生物学知识,对识别出的空间域进行人工注释和验证。
-
细胞类型映射与去卷积分析
- 细胞类型去卷积(Cell Type Deconvolution): 对于Visium等分辨率较低的平台,一个捕获点可能包含多个细胞。去卷积分析的目标是推断每个空间捕获点中各种细胞类型的比例。这通常需要结合单细胞RNA测序数据作为参考,通过算法(如SPOTlight、RCTD、Seurat的Label Transfer功能)将已知的单细胞类型信息映射到空间数据上。
- 高分辨率数据的细胞类型识别: 对于MERFISH、CosMx、Xenium等单细胞分辨率平台,可以直接在空间数据中识别和注释单个细胞的类型,并将其空间位置可视化。
-
细胞间通讯推断
- 基于空间上相邻的细胞或空间域中已知的配体-受体对,推断潜在的细胞间相互作用网络。常用工具包括CellChat、NicheNet等。这有助于理解局部微环境中信号通路的激活。
-
差异表达分析与功能富集
- 差异表达分析: 比较不同空间域之间或特定空间区域内不同细胞类型之间的基因表达差异,找出定义这些区域或细胞群的标志性基因。
- 功能富集分析: 对差异表达基因进行通路富集分析(如GO、KEGG),以揭示不同空间区域的生物学功能和潜在调控机制。
-
数据可视化与结果解释
- 空间可视化: 将基因表达量或细胞类型比例叠加到H&E图像上,直观地展示基因在组织中的空间分布模式。10x Genomics的Loupe Browser、Seurat包的SpatialPlot等工具提供了强大的可视化功能。
- 整合分析: 将空间转录组数据与其他组学数据(如蛋白质组学、代谢组学、表观遗传学)相结合,进行多组学整合分析,以获得更全面的生物学见解。
空间转录组分析的挑战与未来展望
尽管空间转录组分析带来了革命性的变化,但也面临一些挑战:
- 分辨率与通量权衡: 当前高分辨率(单细胞甚至亚细胞)技术通常通量较低且可检测的基因数量有限,而高通量技术(如Visium)的分辨率仍无法达到单细胞级别。未来技术发展将致力于同时提高分辨率和通量。
- 数据整合与多组学关联: 如何有效地整合来自不同技术平台(如Visium与MERFISH)、不同组学层面(如空间转录组与空间蛋白质组)的数据,以及如何将空间信息与临床数据、病理图像深度结合,是当前研究的热点和难点。
- 计算资源的挑战: 空间转录组数据量巨大,对计算硬件和存储提出了高要求。同时,开发更高效、更准确的生物信息学算法,尤其是解决细胞类型去卷积、细胞间通讯推断以及三维重建等问题,仍是持续努力的方向。
总而言之,空间转录组分析作为一项新兴的强大技术,正逐步揭示组织内部基因表达的精细空间模式,极大地推动了我们对复杂生物学系统和疾病机制的理解。随着技术的不断成熟和算法的持续优化,其在基础研究、疾病诊断和药物开发等领域的应用前景将更加广阔。