什么是NGS测序?(新一代测序技术)
NGS,全称Next-Generation Sequencing,中文常称新一代测序或高通量测序。它是一种革命性的DNA(或RNA)测序技术,与传统的Sanger测序截然不同。
核心原理:NGS技术能够同时并行读取数百万到数十亿个DNA片段的序列信息。它不是对单个长DNA分子进行测序,而是将基因组或转录组打断成短片段,在同一平台上对这些片段进行大规模的、高度并行的测序。随后,通过生物信息学手段将这些短片段序列(称为“reads”)与参考基因组进行比对或进行从头组装,从而重建成完整的序列信息。
与传统Sanger测序的主要区别:
- 通量: Sanger测序一次只能测序一个DNA片段,且长度有限(约800-1000bp)。NGS则能同时测序海量片段,一次运行即可获得数亿到数十亿个reads,总数据量可达TB级别。
- 成本: 按单位碱基计算,NGS的成本远低于Sanger测序,使得大规模基因组或转录组研究成为可能。
- 速度: NGS测序速度快,完成一个全基因组或转录组测序项目所需时间大大缩短。
- 应用范围: Sanger测序常用于单基因测序、PCR产物测序或验证。NGS凭借其高通量,广泛应用于全基因组测序、全外显子组测序、RNA测序、染色质免疫沉淀测序(ChIP-seq)、宏基因组测序等复杂研究。
- 起始材料: Sanger测序通常需要较高起始量的克隆或PCR产物。NGS对起始样本量要求相对较低,且可以直接对基因组DNA或总RNA进行处理。
NGS测序的主要应用类型:
根据研究目的和处理的样本类型,NGS有多种应用策略:
- 全基因组测序 (WGS): 测定一个生物体完整基因组的全部DNA序列,包括编码区和非编码区。用于发现基因组变异、基因组组装等。
- 全外显子组测序 (WES): 仅测定基因组中所有蛋白质编码区域(外显子)的序列。成本低于WGS,适用于寻找与疾病相关的蛋白编码区变异。
- RNA测序 (RNA-seq): 测定特定细胞或组织在特定状态下所有RNA分子的序列,主要用于分析基因表达水平、发现新的转录本、研究选择性剪接、检测融合基因等。
- 目标区域测序 (Targeted Sequencing): 利用探针捕获或PCR扩增等方法,仅对基因组中预设的特定基因、区域或 панели进行测序。适用于对已知与疾病相关的基因进行高深度测序,提高变异检测的灵敏度,成本相对较低。
- 染色质免疫沉淀测序 (ChIP-seq): 结合染色质免疫沉淀技术,用于研究蛋白质(如转录因子、组蛋白修饰)与DNA的相互作用位点。
- 宏基因组测序 (Metagenomic Sequencing): 直接对环境样本(如土壤、水、肠道菌群)中所有微生物的全部基因组进行测序,无需分离培养,用于研究微生物群落组成、功能和多样性。
- 甲基化测序 (Methyl-seq): 通过重亚硫酸盐处理,测定DNA的甲基化状态,研究基因表观遗传调控。
为什么要选择NGS测序?
选择NGS通常是为了获取传统方法难以获得的海量、详细的遗传信息,以解决复杂的生物学或临床问题。
NGS的核心优势使其成为首选:
- 高通量与深度: 能够同时检测数百万个位点或分子,提供高深度的覆盖,从而提高稀有变异或低丰度转录本的检测能力。
- 全面性: 可以对整个基因组、外显子组或转录组进行全面扫描,无需预设假设或仅关注已知区域,有利于发现新的基因、变异或调控机制。
- 经济性(单位数据成本): 虽然单次运行总费用可能较高,但考虑到其产生的数据量,每碱基的测序成本远低于Sanger测序。
- 无需先验知识: 在许多应用中,NGS可以直接对样本进行测序,无需预先了解待测区域的序列信息,这对于发现未知变异或进行从头基因组组装至关重要。
- 灵敏度高: 特别是高深度测序,能够检测到在混合样本中占比较低的序列,例如肿瘤样本中的体细胞突变、液体活检中的循环肿瘤DNA (ctDNA) 或复杂微生物群落中的低丰度物种。
NGS能够解决哪些传统方法难以解决的问题?
- 发现新的致病基因或突变: WGS/WES可以系统性地筛查患者基因组,发现与疾病相关的未知变异。
- 全面分析基因表达谱: RNA-seq能够量化几乎所有基因的表达水平,揭示复杂的基因调控网络和通路变化。
- 研究复杂的微生物生态系统: 宏基因组测序直接分析环境样本,揭示其中所有微生物的物种组成、功能潜力及其相互关系。
- 检测结构变异和拷贝数变异: WGS数据能够有效地检测基因组中的大片段插入、缺失、倒位、易位等结构变异以及拷贝数变化。
- 研究表观遗传学修饰: ChIP-seq、甲基化测序等应用可以直接定位蛋白质结合位点或DNA甲基化区域。
- 肿瘤异质性研究: 对肿瘤样本进行深度测序,可以揭示同一肿瘤内不同细胞群体的基因组差异。
NGS测序通常在哪里进行?
NGS测序并非一台小型仪器在家就能完成,它需要专业的设备、试剂、人员和环境。通常在以下类型的机构进行:
1. 专业的第三方测序服务公司:
这是最常见的选择,尤其对于科研人员或临床机构。这些公司拥有最先进的测序平台(如Illumina NovaSeq, DNBSEQ-T7等)和成熟的实验流程、质控体系及生物信息分析团队。它们提供从样本接收、文库制备、上机测序到初步生物信息分析的一站式服务。
2. 高校和研究院所的核心测序平台/公共技术平台:
大型科研机构通常设立共享的核心测序平台,配备多台测序仪,为内部或合作单位的研究人员提供服务。这些平台通常拥有经验丰富的技术人员和生物信息支持团队。
3. 大型医院或诊断中心的基因检测实验室:
随着NGS在临床诊断(如遗传病诊断、肿瘤基因检测、感染性疾病病原体鉴定)中的应用日益广泛,一些大型医院或专业的医学检验所也建立了符合临床规范的NGS实验室。
无论在哪里进行,NGS测序都需要具备特定的硬件条件(超净工作台、PCR仪、Qubit/Nanodrop、片段分析仪、自动化工作站、测序仪等)、高品质的试剂耗材、严格的实验操作规程以及强大的计算资源用于数据存储和分析。
NGS测序的费用是多少?
NGS测序的费用没有一个固定数字,它受到多种因素的影响,差异可能非常大,从几百元到数万元甚至更高,主要取决于“测什么”、“测多少”以及“如何测”。
影响NGS测序成本的关键因素:
- 测序应用类型: 这是最主要的因素。全基因组测序(WGS)通常是最贵的,因为它需要覆盖整个庞大的基因组;全外显子组测序(WES)次之;RNA测序(RNA-seq)和目标区域测序(如基因Panel测序)相对便宜。宏基因组、ChIP-seq等费用也各有不同。
- 测序深度 (Sequencing Depth): 指特定位点平均被测序到的次数。深度越高,数据量越大,成本越高。例如,临床肿瘤样本的体细胞突变检测需要很高的深度(如100x-500x或更高),而人类全基因组重测序一般需要30x深度。
- 样本数量: 通常批量处理样本会比处理单个样本具有更高的效率和更低的平均成本。
- 文库制备复杂度: 不同的样本类型(基因组DNA、RNA、ctDNA等)和应用(链特异性RNA-seq、小RNA测序、单细胞测序等)需要不同的文库制备方法,有些方法更复杂、耗时或需要特殊试剂,会增加成本。
- 测序平台: 不同的测序平台(如Illumina的不同型号、MGI的不同型号)通量和价格不同,选择的平台会影响成本。
- 数据分析需求: 提供商通常会提供标准的基础生物信息分析报告(如变异检测、基因表达定量等)。如果需要更深入、定制化或高级的分析(如通路分析、差异表达分析、结构变异详细分析等),可能会额外收费。
- 样本质量与类型: 样本质量差可能导致文库制备失败或测序数据质量低,有时需要补样或承担失败风险。处理特殊样本(如FFPE样本、ctDNA)可能需要专门的文库制备方法,成本更高。
费用范围示例(仅供参考,实际价格需咨询服务商):
以下是一些常见应用的粗略价格范围(每样本):
- 人类全基因组测序 (30x): 可能在数千到一万多元人民币。
- 人类全外显子组测序 (100x): 可能在数千元人民币。
- RNA测序: 根据测序深度和是否为链特异性,可能在千元到数千元人民币。
- 基因Panel测序 (高深度): 根据Panel大小和测序深度,可能在数百到数千元人民币。
注意: 这些价格会随市场、技术进步、服务商、项目规模等因素动态变化。精确报价需要提供详细的项目信息(物种、应用类型、测序深度、样本量、数据分析需求)咨询具体的测序服务商。
NGS测序是如何进行的?(核心流程详解)
NGS测序是一个多步骤的复杂过程,包括样本准备、文库制备、上机测序和数据分析。
主要步骤概览:
- 样本准备: 提取待测序的核酸(DNA或RNA)。
- 文库制备: 将核酸片段化,并在片段两端加上接头序列(adapters)。
- 上机测序: 在测序仪上进行大规模平行测序,读取片段序列。
- 数据分析: 对原始测序数据进行质控、比对、变异检测或表达定量等分析。
步骤一:样本准备
提取高质量的核酸:
从细胞、组织、血液等样本中提取DNA或RNA。这一步对后续流程至关重要。核酸的量(quantity)、浓度(concentration)、纯度(purity,如OD260/280比值)和完整性(integrity,如DNA片段大小、RNA的RIN值)都必须符合测序平台的最低要求。低质量或降解的样本会导致文库制备失败或测序数据质量差。
步骤二:文库制备 (Library Preparation)
这是NGS流程中最关键和耗时的一步,其目的是将提取的核酸转化成适合特定测序平台读取的“测序文库”。
文库制备核心过程(以DNA测序为例):
- 片段化: 将基因组DNA随机打断成特定大小的片段(通常在150bp到800bp之间,取决于不同的测序平台和应用)。片段化可以通过酶切或超声波等物理方法实现。
- 末端修复与加A: 对片段的末端进行修复,使其变为平末端,然后在3’端加上一个“A”碱基。
- 连接接头 (Adapter Ligation): 将具有特定序列的“接头”(adapters)连接到DNA片段的两端。这些接头包含测序引物结合位点、样品索引(index或barcode,用于多样本混测后区分)以及用于结合到测序流动槽(flow cell)表面的序列。
- 纯化: 清除未连接的接头和小于文库大小的副产物。
- PCR扩增 (可选或必要): 对文库进行少量循环的PCR扩增,以增加文库产量,达到测序所需的浓度。在这一步引入带有索引的引物,进一步标记不同的样本。
- 质控: 对构建好的文库进行质量控制,检测文库浓度、片段大小分布以及是否存在接头二聚体等。常用的方法包括Qubit荧光定量、Agilent Bioanalyzer/TapeStation(进行片段分析)和qPCR(对可上机测序的分子进行定量)。
对于RNA测序,文库制备过程会先将RNA逆转录为cDNA,然后再进行片段化、加接头等操作。具体流程会根据RNA类型(mRNA、miRNA、总RNA)和研究目的有所不同。
步骤三:上机测序 (Sequencing)
合格的文库被加载到测序仪上,进行大规模平行测序。以目前最流行的Illumina测序平台为例:
- 上样到流动槽 (Flow Cell): 将制备好的文库稀释后加载到流动槽上。流动槽表面有密集的纳米级通道,通道内预先固定了可以与文库接头结合的寡核苷酸序列。
- 桥式扩增或边桥聚簇 (Bridge Amplification/Cluster Generation): 文库片段在流动槽表面通过与固定寡核苷酸结合,形成桥状结构,然后进行原位PCR扩增。每个连接到流动槽表面的DNA分子会通过这个过程扩增形成一个包含数千个相同DNA拷贝的克隆簇(cluster)。每个cluster在测序过程中产生一个独立的信号。
- 边合成边测序 (Sequencing-by-Synthesis): 加入带有四种荧光标记的dNTP、DNA聚合酶和测序引物。在每个测序循环中,聚合酶将一个荧光标记的dNTP添加到链上,并释放荧光信号。测序仪通过高分辨率相机捕捉每个cluster在每个循环中发出的荧光信号,从而识别加入的碱基类型。
- 读取序列: 测序仪记录每个cluster在连续循环中识别到的碱基序列,生成大量的短序列片段,即“reads”。可以进行单端测序(读取片段一端)或双端测序(Paired-End, PE,读取片段两端并知道两端序列间的距离),PE测序提供更丰富的信息,有利于后续比对和组装。
不同平台(如MGI、PacBio、Oxford Nanopore)采用不同的测序化学原理,但核心目标都是对海量DNA分子进行并行序列读取。
步骤四:数据分析 (Data Analysis)
测序仪产生的是大量的原始测序数据,通常以FASTQ格式存储。这些数据需要进行复杂的生物信息学分析才能得到有意义的结果。
基本数据分析流程:
- 原始数据质控: 检查reads的质量分数、序列长度、碱基组成等,去除低质量的reads、接头序列和重复序列。生成质控报告(如FastQC)。
- 序列比对或组装:
- 比对 (Mapping/Alignment): 将质控后的reads与已知参考基因组或参考序列库进行比对,确定每个read在参考序列上的位置。这是分析的基础,常用的比对软件有BWA、Bowtie2、STAR等。比对结果通常保存为BAM/SAM格式文件。
- 从头组装 (De Novo Assembly): 对于没有参考基因组的物种,或者进行新的基因组组装,需要将reads拼接起来构建新的基因组序列。常用的组装软件有SPAdes、MEGAHIT等。
- 下游分析: 根据不同的应用类型进行深入分析:
- 变异检测 (Variant Calling): 对于WGS/WES/Targeted sequencing数据,识别与参考基因组相比的差异,包括单核苷酸变异(SNV)、插入/缺失(Indel)、结构变异(SV)和拷贝数变异(CNV)。常用的软件有GATK、Samtools等。
- 基因表达定量 (Gene Expression Quantification): 对于RNA-seq数据,计算每个基因或转录本的表达水平(如FPKM、TPM、count值)。常用的软件有HTSeq、featureCounts、StringTie、Salmon、Kallisto等。
- 其他分析: 如融合基因检测、可变剪接分析、ChIP-seq峰鉴定、宏基因组物种组成和功能分析、甲基化位点分析等。
- 结果注释与解读: 对检测到的变异或表达差异等结果进行功能注释(如变异是否在基因上、是否导致氨基酸改变、是否与已知疾病关联;差异表达基因的功能富集分析等),并结合实验设计和生物学背景进行解读。
数据分析通常需要高性能计算服务器和专业的生物信息学人才。许多测序服务公司提供基础或高级的数据分析服务。
为NGS测序准备样本:用户须知
作为样本提交者,提供高质量、符合要求的样本是确保NGS项目成功的关键第一步。以下是一些重要的准备事项:
样本类型与基本要求:
不同的应用需要不同的样本类型和质量要求。以下是一些常见要求:
- 基因组DNA:
- 来源: 新鲜组织、冷冻组织、血液、唾液、细胞、FFPE组织等。
- 数量: 根据应用和文库制备方法而定,通常需要微克级别(如WGS可能需要1-3 µg,WES或Targeted可能需要数十到几百 ng),有些低起始量方法甚至只需要ng级别。具体需咨询服务商。
- 浓度: 达到服务商要求的最低浓度,通常在几十到几百 ng/µL。
- 纯度: OD260/OD280比值应在1.8-2.0之间,OD260/OD230比值应高于1.5(最好高于1.8)。避免蛋白质、RNA、多糖、苯酚等残留。
- 完整性: DNA不应过度降解。可通过琼脂糖凝胶电泳检查DNA条带是否清晰、拖尾是否严重。高质量DNA应有主带,且没有明显的弥散或降解迹象。
- 总RNA:
- 来源: 新鲜组织、冷冻组织、细胞、血液等。FFPE样本RNA完整性较差,需要特殊处理。
- 数量与浓度: 根据应用(如mRNA-seq vs small RNA-seq)和文库制备方法而定,通常需要微克级别。
- 纯度: OD260/OD280比值应在1.9-2.1之间,OD260/OD230比值应高于1.8。避免蛋白质、DNA、盐离子、乙醇等残留。
- 完整性: RNA极易降解。完整性是RNA测序成功的关键。通常使用Agilent Bioanalyzer或TapeStation评估,要求RIN(RNA Integrity Number)值或RQN(RNA Quality Number)值达到一定标准(如用于mRNA-seq通常要求RIN ≥ 7.0,最好 ≥ 8.0;FFPE样本可能要求RIN ≥ 2.0或有特定指标如DV200)。
- 特殊样本: 如FFPE样本、血浆/血清(用于ctDNA)、单细胞、微生物样本等,通常有更严格或特殊的处理要求,务必详细咨询服务商。
样本提交注意事项:
- 保存方式: 提取好的核酸应溶解在超纯水、TE缓冲液或洗脱缓冲液中,分装后保存在-20°C或-80°C。
- 包装与运输: 样本管应清晰、准确标记(通常包括样本ID、日期、类型)。运输时需使用密封袋包装,并使用足够的冰袋(冷藏样本)或干冰(冷冻样本,如核酸)确保样本在运输过程中保持低温。符合生物安全和危险品运输规范。
- 提供详细信息: 随样本提交详细的样本清单和项目需求表,包括样本ID、来源、类型、提取日期、浓度、OD值、完整性评估结果(如电泳图片、RIN值)、预期应用、测序深度要求、项目联系人信息等。这些信息对于服务商进行样本质控、实验设计和项目管理至关重要。
- 提前沟通: 在提取样本前或提交样本前,务必与选择的测序服务商充分沟通,了解其具体的样本接收标准、运输要求、预期周期和报价。
重要提示: “垃圾进,垃圾出”(Garbage in, garbage out)原则在NGS中体现得淋漓尽致。样本质量是决定最终数据质量的基石。投资于高质量的样本提取和初步质控,能大大提高项目成功率并避免不必要的重复劳动和成本。
如何选择合适的NGS测序应用?
选择正确的NGS应用取决于您的研究问题、预算和样本类型。以下是一些决策考虑:
- 如果您的目标是全面了解一个物种的基因组结构、发现所有的基因组变异(包括编码区和非编码区)或进行新的基因组组装: 选择全基因组测序 (WGS)。它提供最全面的信息,但成本最高,数据量最大。
- 如果您的目标是快速有效地找到与疾病或性状相关的蛋白编码区变异: 选择全外显子组测序 (WES)。它覆盖了基因组中最可能包含功能性变异的区域,成本低于WGS。
- 如果您的目标是研究基因在特定条件下的表达水平、发现新的转录本、研究可变剪接或融合基因: 选择RNA测序 (RNA-seq)。它关注基因的活性状态,而非DNA本身的序列。
- 如果您的目标是高深度检测特定基因或区域的变异,或者您的研究对象是已知与特定通路或疾病相关的有限数量的基因: 选择目标区域测序 (Targeted Sequencing)。它通过捕获或扩增特定区域,以较低的成本和数据量获得高深度信息,提高稀有变异检测的灵敏度。基因Panel测序是常见的一种Targeted Sequencing。
- 如果您的目标是研究蛋白质与DNA的相互作用(如转录因子结合位点、组蛋白修饰位点): 选择ChIP-seq。
- 如果您的目标是分析环境、肠道等复杂样本中所有微生物的物种组成和功能潜力,无需培养: 选择宏基因组测序 (Metagenomic Sequencing)。如果只关注特定菌群的物种分类,可以考虑16S rRNA(细菌/古菌)或ITS(真菌)扩增子测序,这是宏基因组的简化版。
- 如果您的目标是研究DNA甲基化在基因调控中的作用: 选择甲基化测序(如全基因组重亚硫酸盐测序WGBS、Reduced Representation Bisulfite Sequencing RRBS等)。
在做出决定前,明确您的研究问题、所需的变异类型(SNV、Indel、SV、CNV)、需要的检测灵敏度以及可用的预算和样本类型是至关重要的。咨询有经验的测序服务商或生物信息学专家也能提供有价值的建议。
关于NGS数据与潜在问题
NGS产生海量数据,同时也可能面临一些挑战:
- 数据量巨大: 一次NGS运行可以产生数TB的原始数据。这需要大量的存储空间、计算资源和网络带宽进行传输和分析。
- 数据分析复杂: NGS数据分析需要专业的生物信息学知识和技能,涉及多种软件工具和复杂的计算流程。对非专业人士而言,理解分析结果并进行生物学解释可能具有挑战性。
- 潜在的实验偏差: 文库制备、PCR扩增、测序过程都可能引入偏倚(如GC含量偏倚、扩增偏倚),影响测序数据的均匀性和准确性。高质量的实验操作和严格的质控可以减轻这些问题。
- 测序错误率: 虽然NGS平台的错误率相对较低,但仍然存在。通过高深度测序、双端测序以及生物信息学算法可以在一定程度上纠正或滤除错误。
- 假阳性和假阴性结果: 数据分析过程可能产生假阳性(错误检测到的变异或差异)或假阴性(未能检测到的真实变异或差异)。优化分析流程、结合不同分析工具和进行结果验证(如Sanger测序验证关键变异)是必要的。
- 样本质量问题: 如前所述,样本质量差是导致NGS项目失败或数据质量低的常见原因。
收到测序数据后,首先应仔细检查测序服务商提供的质量报告,了解原始数据的基本情况(如数据量、Q30比例、GC含量、比对率等)。如果对结果有疑问,应及时与服务商沟通,共同排查问题可能出在实验环节还是数据分析环节。