新闻中心

国数集联引领CXL网络革新,打造超低延迟“超级集群”解决方案

2024-03-29

去三年,随着语言大模型的发展,人们看到了利用大规模算力通向通用人工智能的希望之路。随着大模型参数的大幅提升,大模型计算给网络基础设施,特别是GPU和AI的集群网络设施提出了巨大的挑战。作为行业领导者,NVIDIA借助现有的GPU和IB网络,结合最新的NVLink和NVSwitch技术,构建了一整套覆盖计算、网络和存储的解决方案。这套方案提供了极高的性能,然而成本和封闭特性使我们必须寻求新的、更加开放、性价比更高的解决方案。

国数集联(Clussys)作为一家基于创新型AI网络基础设施的公司,将在CXL技术领域构建自己的CXL/PCIe Fabric解决方案,并基于CXL/PCIe Fabric开发RDMA和IP协议,使应用能够无缝适配新型的AI网络。

与传统以太网网络基础设施不同,国数集联将完全摒弃MAC网络模型,采用基于CXL控制器的网络模型。同时,我们更专注于小规模、高性能、低延迟的集群应用场景。

国数集联目标是通过高速PCIe/CXL总线网络将100台甚至1000台GPU、CPU、SSD相互连接,使得数千个计算设备能像在一台设备上运行一样,这也是当前计算性能扩展的核心领域。相较于传统云计算关注1万台甚至10万台设备的互联,我们更专注于小规模集群。当然,如果需要,可以通过以太网/IB网络转换为PCIe/CXL网络以实现更大规模的扩展,然而这并非我们当前的主要关注点。

在小规模集群,也就是NVIDIA所称的"superpod"集群内,国数集联更注重设备之间高速、低延迟的通讯。与传统网络一样,通讯性能的提升核心要素包括尽量使用硬件辅助(hardware aid)、精简的数据流(zero copy)和优秀的流量管理(flow control)。为简化模型,我们将网络协议进行对比,通过充分利用已有硬件特性来实现数据传输。

图片

在上图中,我们可以观察到传统的网卡设备引入了大约1-3us的额外延迟。此外,数据需要不断在用户空间、内核空间和设备之间进行复制。尽管存在各种优化技术和技术模块来简化这种数据移动,但目前的结果尚不令人满意,我们需要更为优秀的解决方案。

在CXL网络中,数据搬移可以直接利用CXL控制器的DMA,无需添加额外网卡或DSP(当然在PCIe网络中同样适用)。同时,CXL控制器提供的cache协议使得不同设备间数据响应更快更及时。

国数集联通过设计独特但保持通用的CXL控制器接口的总线互联网络,充分发挥CXL控制器的性能,实现数据从一个CPU搬移到另一个CPU,GPU搬移到另一个GPU。端对端延迟仅为600纳秒RDMA网络延迟的1/3左右

为加速生态建设和吸收优秀工程师的意见和建议,我们非常乐意与广大开发者分享我们取得的成果和研发进展,我们将陆续在GitHub上公开我们的进展。该仓库的结构如下:

图片

IP Folder

在ip文件夹下,我们将在CXL网络上构建netdevice设备,并引入DMA技术以支持数据传输能力。由于CXL和PCIe网络的特性,我们在netdevice的流程上尽量简化协议处理,去除不必要的校验和检查流程。当然,我们提供CXL和PCIe两种应用场景。

RDMA Folder

在rdma文件夹下,我们将直接在CXL网络上构建RDMA设备,并重新适配verbs接口,以便应用程序无需修改即可适配未来的CXL网络。同样,我们将提供CXL和PCIe两种模式。

UEC Folder

UEC?这是未来的发展方向,尽管未来尚未到来,我们为UEC预留了一个位置。

图片

有了UEC后

图片

不过,UEC目前仍处于非常早期的阶段。国数集联将会持续关注其发展。

VMS Folder

最后是我们的重头戏,我们的软件开发环境vms文件夹。从名称中可以看出,这是基于虚拟机的一套开发和验证环境。在虚拟机中,性能会有所降低,但用于展示技术的可行性。在vms目录下,我们针对CXL和PCIe构建了两套环境。需要特别提到的是,CXL是一项快速发展的技术,对内核要求较高,因此我们选择了6.3内核系列。当然,新内核提供了新特性,但稳定性需要大家共同验证。而PCIe作为一项长期存在的技术,我们采用5.15内核。在各个虚拟机环境下,用户可以运行脚本进行使用和体验。当然,还有readme供参考。

最后感谢大家使用和体验我们的技术,我们希望在CXL/PCIe技术领域构建一个开放的生态,为大型模型和通用人工智能做出贡献。

repo: https://github.com/Clussys/nupa

如有任何问题,请发送邮件至info@clussys.com。


END