国家超级计算平台是一个复杂且庞大的基础设施体系,它并非仅仅由一台超级计算机构成,而是由多个位于全国不同地区的超级计算中心互联互通、协同服务形成的一个整体。其核心目标是整合分散的超算资源,通过高速网络连接和统一的管理服务体系,面向国家重大战略需求、科学前沿研究、产业升级创新以及社会民生改善等领域,提供高品质、大规模、安全可靠的高性能计算(HPC)服务。

是什么?——国家超算平台的组成与形态

国家超算平台从技术和服务层面看,主要包含以下几个关键组成部分:

  • 超级计算硬件集群: 这是平台的基础,包括大量的计算节点(CPU节点、GPU节点、异构加速节点等)、高速互连网络(如InfiniBand、高速以太网)、高性能存储系统(如并行文件系统Lustre、BeeGFS等)以及辅助设备(如冷却系统、电力供应)。这些硬件分布在不同的物理位置,构成各个国家超级计算中心的主体。
  • 基础软件环境: 平台提供基于Linux操作系统的高性能计算环境,预装了各类编译器(如GCC、Intel编译器)、并行计算库(如MPI、OpenMP)、数学库(如MKL)以及常用的科学工程应用软件。
  • 资源管理与调度系统: 核心是作业调度器(如Slurm、PBS Pro等),负责管理计算任务队列,根据资源申请、优先级、系统负载等策略分配计算资源,确保系统高效运行。同时还有用户管理、权限控制、计费等系统。
  • 高速互联网络: 连接各个超级计算中心以及用户终端的高速专用网络,确保数据能够在不同中心之间以及用户与中心之间快速、安全地传输,这是实现“平台化”整合的关键。
  • 服务与管理平台: 提供用户访问门户(Web portal)、作业提交接口、数据管理工具、系统监控与管理界面等,是用户与平台交互的主要界面。
  • 应用软件与服务生态: 除了基础软件,平台还支持或提供特定领域的应用软件,并有专业的技术支持团队为用户提供咨询、优化、并行化等服务,帮助用户更好地利用超算资源。

简单来说,它是一个分布式的、集硬件、软件、网络和服务于一体的超算资源“云”,但更侧重于面向科学计算和大规模并行计算的专业化服务。

为什么?——构建国家超算平台的驱动力与价值

建设和发展国家超算平台并非一时兴起,而是由国家战略需求和科技发展趋势共同驱动,其核心价值体现在:

  • 支撑国家重大战略与科技前沿: 许多国家级科研项目和工程领域,如气候变化预测、新材料设计、基因测序与分析、核能模拟、航空航天仿真、密码分析等,都需要千万亿次甚至百亿亿次量级的计算能力。单个科研机构或高校难以独立承担如此巨大的投资和运维成本。国家平台集中资源,成为这些研究的基石。
  • 推动关键核心技术突破: 在高性能计算领域,硬件、软件、应用是相互促进的。国家平台的发展能够牵引国产超算硬件(CPU、加速器、网络芯片)和软件(操作系统、编译器、调度器、并行算法库)的研发与应用,减少对外部技术的依赖,保障国家信息安全。
  • 加速产业升级与创新: 工业设计与仿真(汽车碰撞、飞机气动)、金融风险分析、石油勘探数据处理、生物医药研发(药物分子筛选)、大规模人工智能模型训练等工业界高精尖应用对计算力的需求日益增长。平台为这些行业提供了强大的计算引擎,加速产品研发周期,提升竞争力。
  • 优化资源配置,提高使用效率: 通过将分散在各地的超算资源整合到统一平台,可以实现资源的统筹调度和按需分配,避免重复建设和资源闲置,提高整体资源利用率。
  • 构建协同创新生态: 平台连接了全国范围内的科学家、工程师和研究人员,促进跨地域、跨学科的交流与合作,形成基于超算平台的协同创新网络。
  • 应对复杂社会挑战: 自然灾害模拟(地震、洪水、台风)、城市规划与管理、公共卫生数据分析等社会民生领域也 increasingly 依赖高性能计算的支持。

因此,建设国家超算平台是提升国家核心竞争力、推动科技创新、服务社会发展不可或缺的基础设施。

哪里?——国家超算平台的物理分布

国家超算平台并非一个单一的物理地点,而是由分布在全国不同城市的多个国家超级计算中心构成,并计划通过高速网络连接形成一个逻辑上的整体。一些主要的国家超级计算中心包括(但不限于):

  • 国家超级计算无锡中心: 部署有“神威·太湖之光”等超级计算机。
  • 国家超级计算天津中心: 部署有“天河一号”、“天河三号”(E级原型机)等。
  • 国家超级计算广州中心: 部署有“天河二号”等。
  • 国家超级计算济南中心: 部署有“神威·蓝光”以及后期的系统。
  • 国家超级计算深圳中心: 部署有“曙光星云”等。
  • 国家超级计算长沙中心: 部署有“天河”系列系统。
  • 国家超级计算郑州中心: 部署有“河汉”系列系统。
  • 国家超级计算昆山中心、国家超级计算成都中心 等新建或升级中的中心。

这些中心各自拥有不同代际、不同架构的超级计算机系统,形成了能力的互补。国家平台的目标是将这些分散的计算能力通过高速互联网络(例如国家科技网、未来的国家算力网络骨干网等)连接起来,实现跨地域的资源共享和协同计算。用户可以通过统一的入口访问位于不同地点的计算资源,而无需关心具体的物理位置(在平台层面上)。

多少?——资源规模与使用成本

“多少”可以从多个维度来理解:

多少计算力?

国家超算平台整合的计算能力非常巨大。单个超级计算中心的峰值性能通常达到千万亿次(PFLOPS)甚至百亿亿次(EFLOPS)级别。平台整合全国多个中心的算力后,总的可用计算能力是这些中心的叠加,能够提供支持超大规模并行计算任务所需的算力支撑。这使得科研人员能够运行更大规模、更精细的模型,解决过去无法解决的问题。

多少存储空间?

高性能计算任务通常产生或需要处理海量数据。国家超算平台为每个中心配备了PB(Petabyte,1PB = 1024TB)甚至EB(Exabyte,1EB = 1024PB)级别的存储系统,包括高速的并行文件系统用于作业运行中的I/O,以及更大容量的归档存储用于长期数据保存。总的存储容量能够满足国家级项目的需求。

多少类型资源?

平台提供的资源类型多样,不仅仅是CPU计算时钟。它包括不同架构的CPU核时、GPU卡时、大内存节点时、高性能存储空间、高速网络带宽等。用户可以根据其应用的特点选择最合适的资源类型。

使用成本多少?

国家超算平台的使用并非完全免费,通常采用“按用量计费”的模式。计费单位通常是“核时”(CPU核的使用时间)或“卡时”(GPU卡的使用时间),存储也按容量和使用时长计费。

  • 对于国家级项目和重点科研项目: 往往通过项目申请和评审获得平台资源配额,这部分资源通常有国家财政的支持,使用成本较低或象征性收费。
  • 对于一般科研、教育或商业用户: 需要按照平台公布的价格表购买计算资源。价格会因资源类型(CPU vs. GPU)、优先级、购买量等因素而有所不同。
  • 资金来源: 平台的建设和大部分运维资金来自国家、地方政府以及相关部委的投入。用户付费也是平台持续运营和升级的一部分资金来源。

具体的费用标准需要咨询各国家超级计算中心或国家平台的统一服务窗口,因为价格体系可能有所差异和调整。

如何?——平台的技术架构与运行机制

国家超算平台的运行涉及到复杂的体系结构和管理机制:

技术架构:

平台采用分层架构:

  1. 硬件层: 分布式的大规模计算、存储和网络设备。
  2. 系统软件层: 操作系统(通常是针对HPC优化的Linux发行版)、文件系统、设备驱动、监控系统等。
  3. 资源管理与调度层: 作业调度器、资源分配策略引擎、用户认证与授权模块。
  4. 应用支撑层: 编译器、并行库、调试器、性能分析工具、常用应用软件。
  5. 服务与用户接口层: Web门户、API接口、命令行工具、技术支持系统。

通过高速网络连接和统一的认证授权系统,用户可以在逻辑上访问平台上的资源池,而无需直接管理底层的物理设备。

运行机制:

  • 作业调度: 用户提交计算任务(通常是一个描述计算需求的脚本)。调度器将这些任务放入队列,并根据预设的调度策略(如用户优先级、项目优先级、队列限制、资源可用性等)将任务分配到可用的计算节点上执行。调度器负责启动、监控和管理作业的整个生命周期。
  • 资源分配: 资源不是无限的,调度器根据用户的申请量和配额进行分配。配额通常基于项目需求评审确定。平台会实施严格的资源使用监控和管理。
  • 数据管理: 用户需要将程序和数据上传到平台的高性能存储系统。计算节点通过高速网络访问这些存储。作业运行期间产生的数据也会被写入存储系统。平台提供数据传输工具和管理界面。
  • 系统维护与监控: 专业的运维团队负责平台的日常维护、故障排除、性能优化和安全加固。系统会实时监控硬件状态、网络流量、作业运行情况等,确保平台稳定高效运行。
  • 安全保障: 作为国家级基础设施,安全是重中之重。平台采取多层次的安全措施,包括物理安全、网络隔离、访问控制、身份认证、数据加密、安全审计、入侵检测等,保护用户数据和计算任务的安全。

怎么?——用户如何接入与使用平台服务

用户使用国家超算平台通常需要经过以下流程:

  1. 申请账号与资源配额:
    • 用户首先需要向平台运营方(通常是各个国家超级计算中心或国家平台的统一管理机构)提交使用申请。
    • 申请通常需要详细说明使用目的(所属项目、研究内容)、所需的资源类型和数量(计算核时、存储空间等)、预期使用时长等。
    • 对于科研项目,可能需要通过专家评审获得国家或机构的经费支持和资源配额。
    • 审核通过后,用户会获得一个账号和相应的资源配额。
  2. 接入平台:
    • 用户通常通过安全的网络连接方式访问平台,最常见的是通过SSH协议远程登录到平台的登录节点或前处理节点。
    • 一些平台也提供Web门户,用户可以通过浏览器进行用户管理、资源查看、作业提交等操作。
  3. 准备计算环境:
    • 将需要执行的程序、输入数据等上传到平台的用户存储空间。
    • 编译或配置程序,确保其能够在平台的环境下运行。
    • 编写作业提交脚本(通常是Shell脚本),脚本中指定需要申请的资源(核数、节点数、墙钟时间)、要执行的程序、输入输出文件等信息,以及使用的调度器指令。
  4. 提交与管理作业:
    • 使用调度器提供的命令(如sbatch for Slurm, qsub for PBS Pro)提交作业脚本到队列中。
    • 使用调度器命令(如squeue, qstat)查看作业在队列中的状态(等待、运行、完成、失败等)。
    • 使用调度器命令(如scancel, qdel)取消不需要的作业。
  5. 监控与调试:
    • 在作业运行期间,可以通过日志文件或监控工具查看作业的输出和错误信息。
    • 平台通常提供调试器和性能分析工具,帮助用户诊断程序问题和优化性能。
  6. 获取结果与数据:
    • 作业完成后,结果数据会保存在用户指定的存储路径下。
    • 用户通过SSH或其他文件传输工具(如SCP, SFTP)将结果数据下载回本地。
  7. 获取技术支持:
    • 平台提供技术支持服务,包括用户手册、在线文档、邮件支持、电话咨询等,帮助用户解决环境配置、程序移植、并行优化、作业提交等问题。
    • 一些中心还会定期组织用户培训,介绍平台的使用方法和高性能计算技术。

总而言之,使用国家超算平台需要一定的技术基础,特别是对Linux操作系统、并行计算概念(如MPI、OpenMP)以及作业调度系统有一定的了解。但平台运营方通常会提供详细的使用文档和技术支持,帮助用户入门和高效利用资源。


国家超算平台