公司配资
作为国产 RISC-V 处理器 IP 领军企业,阿里巴巴达摩院近年来已经发布了 3 大系列 RISC-V 处理器 IP 和 XT-Link 系列互联 IP,覆盖高性能、高能效、低功耗等不同场景。其中,作为目前达摩院最强的服务器 RISC-V 处理器 IP ——玄铁 C930,在 2024 年就已经推出,2025 年 3 月已正式开启交付。
2025 年 7 月 18 日,在 2025 年 RISC-V 中国峰会的"高性能计算分论坛"上,国产 RISC-V 处理器 IP 领军企业阿里巴巴达摩院高级技术专家贾昊䶮详细介绍了玄铁高性能 CPU IP C930 的技术细节和最新迭代进展,主频已经突破 3.4GHz,性能得分也达到 15.2/GHz。
△阿里巴巴达摩院高级技术专家贾昊䶮
从玄铁 C930 的结构图来看(如下图左侧),自上而下分别是指令取指子系统,译码与乱序发射子系统,执行子系统,以及多集访存子系统,其中紫色的模块是向量执行单元,包括加解密,还有协处理器拓展部分。从产品特性来看,玄铁 C930 在支持最新的 RVA23 Profile 标准,增强了向量计算、浮点运算等高性能计算能力的基础上,还加入了玄铁 Matrix 扩展、玄铁协处理器扩展,并支持 RISC-V Vector Cypto、RISC-V Hypervisor、AIAv1.0 等众多 RISC-V 官方在高性能方面的规范。
据贾昊䶮介绍,此前玄铁团队认为迈过 3G 主频大关的时候,才算是迈入了高性能处理器的大门,而玄铁 C930 在目前典型的工作场景下,工作频率已经可以达到 3.4GHz 以上。性能方面,SPEC int 2006 的得分超过了 15.2/GHz,达到了上代 C920 的两倍,相比之前公布的 15/GHz 也有所提升。随着软硬件进一步的协同优化和客户的协同优化,未来性能数据有望取得更好的表现。
从玄铁 C930 的微架构当中的流水线来看,下图当中,最上面的紫色模块的是分支预测和取指子系统,黄色的模块是指令调度单元,绿色的模块是整形计算和分支执行单元,粉色的模块是向量执行单元,桃红色和灰色的模块是访存子系统。
具体来说,C930 拥有 6-Wide、16 级深度乱序流水线,分支预测和取指部分采用的是解耦架构,用以实现独立的分支预测。同时,C930 还拥有 6 条整型和分支流水线;2 条矢量和浮点流水线,最大支持 512 位矢量计算;3 条访存流水线,最大支持 3-Load/2-Store;支持指令融合。
在缓存方面,C930 拥有 64KB L1 Cache;支持 I-Cache Coherence;拥有最大 1MB Private L2 Cache,访问带宽 64B/cycle;Cache 支持 Parity/ECC。
贾昊䶮指出,由于 C930 的分支预测采用了解耦的架构,超前的分支预测准确率,尤其是 BDB 的命中率、准确率就会尤为重要。在这一方面,达摩院在 C930 实现了多种高性能的机制,相比前代实现了开销的大幅下降。
在指令调度的部分,C930 为了实现乱序超标量超高的 IPC 目标,高吞吐的流水线、高性能的乱序技术,是必不可少的。在吞吐的带宽方面,C930 是 6-wide 流水线带宽,11-wide 发射带宽,以及 8-wide 的速度。在高性能乱序技术方面,C930 也研发了多种高性能技术,比如支持快速重建的 checkpoints 设计、zero-delay move 加速、Stavation/Livelock 消除机制,特别是可压缩 ROB 技术,这些都对乱序空间及乱序能力都有很大的提升,有助于实现极致的 IPC。
在 C930 的访存部分,执行流水线可以支持快速的非对其访问,高性能的数据预取,还有非常大的空间;L1 Cache 方面,C930 采用的是 64kb 的规格,并且支持四路组相联、支持 ECC;地址管理方面,C930 支持多级 TLB,支持硬件回填,以及 RISC-V 社区定义的全部虚拟地址管理的模式,并支持两层虚拟地址架构;L2 Cache 方面,C930 最大可以支持到 1MB,支持 DRRIP 的替换策略。同时,也为服务器生态提供 ECC 的支持。这些都使得 C930 在数据吞吐方面的速度得到了显著的提升。
在目前大家关注的人工智能计算方面,玄铁 C930 除了支持 RVA23 Profile 标准,带来了向量计算、浮点运算等高性能计算能力的加强,还加入了玄铁 Matrix 扩展、玄铁协处理器扩展,这也使得 C930 的 int8 算力可以达到 8TOPS,并支持灵活的算力配比,支持多种选择。并且解耦的实现方式,可以让用户在能效比优先或性能优先之间进行自主选择。
需要指出的是,玄铁团队自研了大位宽的 Vector 引擎玄铁 TITAN,支持 512-4096 位可扩展向量长度配置,可实现指令级并行加速。与此同时,玄铁还全新设计了张量算力引擎 TPE(Tensor Processing Engine),是更适合 AI 的原生架构方式,通过 AME(Attached Matrix Extension )完成扩展后,这样使得 C930 可以实现在 GEMM(通用矩阵乘法)算力利用率提升至 96.8%,相比友商达到 2-3 倍的性能提升,可适配大模型实时训练场景。
贾昊䶮指出,作为 RISC-V 处理器 IP 提供商,玄铁团队一直致力于以最高质量,提供完整且灵活的玄铁处理器系统解决方案。为此,玄铁团队在处理器核心、互连、中断、PMU 等方面也在不断迭代创新,下图中所示的全部紫色部分的 IP,皆由玄铁提供。
除了支持 RISC-V 社区定义的这些拓展和规范之外,玄铁还在 PMU 基础上实现了性能分析工具,这在 C930 本身的性能优化过程当中起到非常关键的作用。C930 还支持 DIVI 虚拟中断直通技术,适配 PCIe5.0、IOMMU(输入输出内存管理单元)设计,都可以非常有效助力搭建系统级解决方案。
贾昊䶮告诉芯智讯:"玄铁已有的成熟的解决方案可以满足客户的需求,玄铁团队也在积极研发,未来可以期待我们的玄铁真正实现全系统的玄铁 IP 覆盖。"
作为一款服务器级的 RISC-V 处理器 IP,要想打造服务器 CPU,仅有高性能的 RISC-V CPU 是不够的,还需要高速互联 IP,以实现高性能的多核集群。对此,玄铁也拥有自研的 XT-Link 系列互联 IP,其中与 C930 搭配的是最强的 XL-300。
据介绍,XL-300 基于弹性可配置架构,单个 Cluster 最多可支持 8 处理器的核心(多个 Cluster 可以实现更多核集群),也支持大小核的搭配配置,L3 Cache 最大可支持到 23MB,还有丰富的对对外接口。XL-300 还对特定的场景进行性能优化,支持容量分配、带宽分配,同 ID 上的 DPC 独显也会进行另行的加速设计。
贾昊䶮表示,XL-300 在玄铁团队不断地优化下,相比上一代的 XL-200,频率提升 20%、带宽翻倍,面积仅增加了 5%,使得硬件成本大幅降低。
在系统级方案搭建方面,也离不开 IOMMU(输入输出内存管理单元),玄铁 C930 对此采用的是分布式高并发的 IO TLB 设计,支持 AXI、LTI 灵活集成;独立的 CU 设计,适配多种接口,包括 PCIe、CXL;集成了 IO MPT,支持机密虚拟化;面向加速器场景,还支持共享队列虚拟化(GIPC);支持设备 QS 的管控;支持 RISC-V 社区的 IOMMU 规范。
"总之玄铁分布式的 IO MMU 是一款面向服务器领域的功能完备高性能的 IO MMU,实现了全栈软件生态的支持。"贾昊总结道。
一个稳定系统的搭建,离不开在架构上的可靠性和安全性的设计,玄铁 C930 在这些方面也有很好的支持,比如支持 RAS 特性,支持 RISC-V Smmtt v0.3、RISC-V CoVE v0.7、瞬态执行攻击安全性增强。
玄铁 C930 还拥有协处理扩展接口,可以实现灵活应用的协处理的拓展支持。比如,支持 DSA 扩展,即用户可以进行自定义指令集扩展,通过玄铁预定义的一些自定义指令集拓展,以及译码接口,可以帮助客户快速高效的参照使用运力,实现对自己特定应用场景的加速。
贾昊䶮强调,通过玄铁自定义的协处理接口标准,可以实现 C930 和协处理器之间的高速数据信息传递,这样也可以高效定制指令和工具链。客户只需要根据指令规范,依据实际的需求进行定义、编写、拓展、描述文件,依据流程自动就生成工具链,可以完成对玄铁处理器的适配,这样可以大大节省开发的周期和成本。
编辑:芯智讯 - 浪客剑公司配资
国睿信配提示:文章来自网络,不代表本站观点。