智算网络架构深度分析:高性能计算与大模型训练的最佳实践

 
01
智算业务对网络的核心需求
1.1  智算业务关键应用场景和案例
 
 

智能计算通过利用AI技术和算法,能够深入分析和处理大量数据,广泛应用于多个领域,如自然语言处理、图像识别、预测分析等。特别是在自然语言处理方面,大模型的强大能力为各种应用场景提供了强有力的技术支持,比如机器翻译、文本分类和创作等。

如今,智能计算已经成为企业提高效率和降低成本的关键技术,尤其在金融和汽车行业表现尤为成熟。在金融领域,智能计算被用于风险控制、量化交易等方面,帮助机构做出更明智的决策。而在汽车行业,智能计算则为自动驾驶提供了精准的感知和决策能力,持续优化算法以提升安全性。

总的来说,智能计算已经成为企业在现代市场中取得竞争优势的必备工具,其应用潜力还将继续扩大和深化。

 

1.1.1  金融风控与智能推荐

金融业一直走在数字化和智能化的前沿。如今,人工智能已经深度融入金融业务的方方面面,如智能风控、交易欺诈检测、智能客服、投资决策、信用评估和量化交易等。

特别是在金融风控领域,人工智能技术的应用尤为突出。借助大数据分析和机器学习,金融机构可以对交易、投资、借贷等行为进行风险识别、评估与监控,有效地防范潜在风险。这不仅提升了金融机构的安全性,也帮助它们更好地遵守监管要求,保护客户资产的安全。

 

1.1.2  自动驾驶

随着人工智能技术的快速发展,自动驾驶技术也在逐渐走向成熟,并且其在市场中的渗透率不断提升。根据IDC发布的《中国自动驾驶汽车市场数据追踪报告》显示,2022年第一季度,L2级自动驾驶在乘用车市场的新车渗透率已达到23.2%,而L3和L4级自动驾驶技术的成熟度也在不断提升。

在自动驾驶的应用场景中,每辆车每天都会产生海量的数据,达到PB级别的数据处理需求,这使得大规模的数据处理和仿真任务成为必需,智算集群的应用也因此显得尤为重要,以提升数据处理和模型训练的效率。

重庆长安汽车股份有限公司在智算领域进行了大规模的实践,打造了全新的智能车云平台和专用智算中心。当前,其计算能力已突破100亿亿次,能够支持自动驾驶算法的自研、虚拟仿真以及智能网联等数字服务。智能车云平台不仅提供基础网联、数字产品、AI决策分析、智能汽车大数据等四大平台能力,还为用户提供智能化、远程化、个性化的车辆服务体验,让用车更加便捷、高效、安全。

 

1.2  智算业务对网络的关键要求
 
 

1.2.1  AI 模型训练和推理的核心是数据计算

AI系统从生产到应用通常包括两个主要阶段:离线训练和推理部署。

离线训练阶段,是模型生成的核心环节。用户根据具体的应用场景准备数据集,并选择合适的神经网络算法。训练过程始于数据的读取,接着数据被输入模型进行前向计算,以获得预测结果。这些预测值与真实值进行比较,计算误差。随后,模型会执行反向计算来获取参数梯度,并据此更新模型参数。这个过程会在多轮迭代中不断进行,直到模型达到预期的性能。训练完成后,模型会被保存,并为下一步的部署做准备。

一旦模型训练完成,接下来就是推理部署阶段。模型上线后,开始接收用户的真实输入,通过前向计算,输出最终的预测结果。无论是在训练还是推理阶段,数据计算始终是其中的核心。而为了提升计算效率,通常会使用GPU等异构加速芯片来加速这些计算过程。

1.2.2 AI 模型参数规模不断扩大

最近,大模型的发展引起了广泛关注,特别是以GPT-4为代表的模型,其强大的能力让业界为之震撼。如今,智算业务的发展方向已经明显趋向于更加庞大的模型。就自然语言处理(NLP)而言,模型的参数规模已经达到了千亿级别。不仅如此,计算机视觉(CV)、广告推荐、智能风控等领域的模型规模也在迅速扩展,目标正向着百亿甚至千亿参数迈进。这种趋势表明,未来的技术演进将继续依赖更大规模的模型,以应对日益复杂的应用场景和需求。

1.2.3 大模型训练集群的网络要求

随着大模型的发展,参数规模的不断扩大对计算能力和显存的需求越来越高。以GPT-3为例,其拥有千亿级参数,需要高达2TB的显存。然而,当前的单卡显存容量远远不够,即便有了更大容量的显存,用单卡训练仍需耗费32年之久。因此,为了缩短训练时间,通常会采用分布式训练技术,将模型和数据切分,利用多机多卡的方式将训练时间压缩至数周甚至几天。

分布式训练本质上就是通过多台节点共同组建一个强大的计算集群,以应对大模型训练中的算力和存储瓶颈。而这个超级集群的核心就是联接各节点的高性能网络,它直接影响到节点间的通信效率,进而决定整个集群的吞吐量和总体性能。

为了让整个智算集群在训练中保持高效运转,高性能网络必须具备几项关键能力:低时延、大带宽、长期稳定性、大规模扩展性以及可运维性。这些特性是确保集群在处理复杂计算任务时,能够保持快速、稳定的核心保障。

(1)低时延

在分布式训练系统中,整体算力并不会因为智算节点的增加而线性增长,这是因为存在加速比的问题。加速比小于1的主要原因在于,分布式环境下每次计算的时间不仅仅包含单个节点的计算时间,还包括节点之间的通信时间。因此,为了提升加速比,关键在于减少节点间的通信时间。这就要求在设计分布式训练系统时,特别关注和优化通信效率,以便在增加节点的情况下,尽可能提高系统的整体算力。

降低多机多卡间端到端通信时延的关键技术是RDMA(Remote Direct Memory Access)技术。RDMA 的优势在于它能够绕过操作系统内核的干预,使一台主机能够直接访问另一台主机的内存,从而极大地减少了数据传输中的延迟和CPU的占用。正因为如此,RDMA 技术在分布式训练系统中被广泛应用,以提升通信效率,进而提高整体算力的利用率。

当前在实现RDMA(远程直接内存访问)的技术中,主要有四种方式:InfiniBand、RoCEv1、RoCEv2和iWARP。然而,随着技术的发展,RoCEv1 已经逐渐被淘汰,而iWARP 的使用率也较低。目前,RDMA技术的主流方案主要集中在InfiniBand和RoCEv2这两种方式上。

在数据传输领域,InfiniBand 和 RoCEv2 技术凭借绕过内核协议栈的优势,相比传统的TCP/IP网络,显著提升了时延性能。在同一个集群内,一跳可达的情况下,实验室测试数据显示,传统TCP/IP网络的应用层端到端时延约为50微秒,而通过RoCEv2技术,这一时延能够降低到约5微秒,使用InfiniBand技术更是能进一步降低至约2微秒。这些改进得益于其直接绕过内核协议栈,减少了数据传输过程中的延迟,从而大大提升了整体网络性能。

(2)大带宽

在智算集群里,计算节点完成任务后,需要迅速将计算结果同步给其他节点,这样才能为下一轮计算做好准备。在结果完全同步之前,计算任务会暂时处于等待状态,不会进入下一轮处理。假如带宽不足,就会导致梯度传输变慢,从而增加节点之间的通信时间,最终影响整体加速比。这种情况下,网络带宽成为了系统性能的瓶颈,直接影响到任务的执行效率和整体计算性能。

(3)稳定运行

在大规模的分布式训练任务中,由于计算量庞大,整个过程可能会持续数天甚至数周。在此期间,如果网络出现不稳定的情况,可能会对训练任务的进度产生重大影响。网络故障带来的问题通常涉及到多个节点,影响范围较广。轻微的故障可能需要回退到之前的训练断点重新开始,而严重的故障则可能迫使整个任务从头开始重训。因此,网络的稳定性对于确保分布式训练任务的顺利进行至关重要,是影响训练效率和成功率的关键因素。

(4)大规模

随着数据并行和模型并行技术的不断进步,分布式训练已经可以在千卡或万卡级别的GPU集群上进行,大幅缩短了整体训练时间。这种规模的训练需要智算网络具备强大的支持能力,能够稳定地连接并管理如此庞大的GPU服务器集群。此外,智算网络还需要具有极强的扩展性,以便应对未来可能出现的更大规模GPU集群的需求,确保系统能够灵活适应和扩展,从而支持更复杂、更密集的计算任务。

(5)可运维

在成百上千张GPU卡组成的智算集群中,运维和管理的难度是非常关键的。在这种复杂的环境中,确保集群的运行状态清晰可见、配置变更直观简便、异常状态和故障能被快速识别,是实现高效运维管理的基础。这些功能不仅能提高运维效率,还能有效减少人为错误,从而保障智算集群的稳定运行。

02
智算网络方案选型

目前业界为了满足智算网络的低时延、大带宽、稳定运行、大规模和可运维的需求,常用的网络方案主要包括InfiniBand和RoCEv2方案。这两种方案在性能和可靠性上都有出色表现,分别为高性能计算和数据中心提供了强有力的支持。

2.1 InfiniBand 网络介绍
 
 

2.1.1 InfiniBand 物理网络设施

InfiniBand网络的核心组件包括几个关键部分,分别是Subnet Manager(SM)、InfiniBand网卡、InfiniBand交换机以及InfiniBand连接线缆。

图9. InfiniBand 网络架构示意图

(1)InfiniBand 网卡

支持InfiniBand 网卡的厂家以NVIDIA 为主。下图是当前常见的InfiniBand 网卡。

InfiniBand 网卡在速率方面保持着快速的发展。200Gbps 的HDR 已经实现了规模化的商用部署,400Gbps 的NDR的网卡也已经开始商用部署。

(2)InfiniBand 交换机

SB7800 为100Gbps 端口交换机(36*100G),属于NVIDIA 比较早的一代产品。

Quantum-1 系列为200Gbps 端口交换机(40*200G),是当前市场采用较多的产品。

2021年,NVIDIA发布了Quantum-2系列交换机,支持高达400Gbps的传输速率(64个400G接口)。该交换机配备了32个800G的OSFP接口,通过线缆转接,可以输出64个400G的QSFP接口,进一步提升了数据中心的传输能力和灵活性。这种设计不仅满足了高性能计算和网络架构的需求,还在一定程度上简化了硬件连接和管理。

(3)Subnet Manager

InfiniBand交换机的独特设计决定了其网络管理方式与传统网络不同。在InfiniBand网络中,所有的路由决定和网络配置都由一个集中式的子网管理器(Subnet Manager,简称SM)来处理。这个管理器不仅负责计算整个网络的转发表,还要管理诸如Partition(分区)、QoS(服务质量)等各种配置。

SM 有两种实现模式:一种是开源的OpenSM,另一种是收费的UFM。通常,SM部署在接入InfiniBand网络的一台服务器上,负责控制整个子网内的所有设备。需要注意的是,在一个子网内只能有一个SM处于工作状态,即便配置了多个SM设备,也只能有一个被选为主SM。

SM通过InfiniBand网络进行控制和管理,包括交换机和网卡在内的所有设备。网络中的每个设备都有一个由SM分配的唯一LID(Local ID),用于身份标识。SM通过计算并下发路由表,管理子网中的所有通信。值得一提的是,SM可以直接控制网卡,而无需服务器的协助,因为网卡内置了SMA(SM Agent),能够自主处理SM下发的管理报文(MAD,Management Datagram)。

(4)连接件

InfiniBand 网络需要专用的线缆和光模块做交换机间的互联以及交换机和网卡的互联。

2.1.2 InfiniBand 网络方案特点

(1)原生无损网络

InfiniBand 网络通过使用基于 credit 的信令机制,有效避免了缓冲区溢出导致的丢包问题。在这种机制下,发送端只有在确认接收端有足够的缓冲区可以接收数据时,才会开始发送报文。每条链路都配备了一个预置的缓冲区,发送端发送的数据量绝不会超过接收端当前可用的缓冲区容量。一旦接收端完成数据的转发,它会立即释放缓冲区并反馈当前的可用容量给发送端。

这种链路级的流控机制确保了发送端不会发送超过接收端处理能力的数据,从而从根本上杜绝了缓冲区溢出丢包的发生。

(2)万卡扩展能力

InfiniBand 的Adaptive Routing 基于逐包的动态路由,在超大规模组网的情况下保证网络最优利用。InfiniBand 网络在业界有较多的万卡规模超大GPU 集群的案例。

2.1.3 InfiniBand 网络设备供应商

当前市场上的InfiniBand网络解决方案及其配套设备供应商主要有以下几家,其中以NVIDIA的市场份额最大,占有率超过七成。

  • NVIDIA:作为InfiniBand技术的领导者之一,NVIDIA提供种类丰富的InfiniBand适配器、交换机及其他相关产品。

  • Intel Corporation:Intel同样是InfiniBand领域的重要供应商,提供各种InfiniBand网络产品及解决方案。

  • Cisco Systems:Cisco以其广泛的网络设备产品线闻名,也供应InfiniBand交换机及其他相关设备。

  • Hewlett Packard Enterprise (HPE):作为大型IT公司,HPE提供一系列的InfiniBand网络解决方案与产品,包括适配器、交换机和服务器等。

NVIDIA凭借其强大的技术实力和市场份额,牢牢占据了InfiniBand市场的领先地位,而其他供应商也在各自的领域发挥着重要作用。

2.2 RoCEv2 网络介绍
 
 

InfiniBand网络在某种程度上依赖于一个集中式的管理系统,即子网管理器(SM)来进行网络管理和控制。相比之下,RoCEv2网络则是完全分布式的,其架构主要由支持RoCEv2的网卡和交换机组成,通常采用两层网络结构。这意味着RoCEv2网络在设计上更倾向于简化的部署方式,而不是依赖于一个集中管理点,从而增强了网络的灵活性和扩展性。

2.2.1 RoCEv2 物理网络设施

(1)RoCE网卡

支持RoCE(以太网上的远程直接内存访问)功能的网卡厂商主要包括NVIDIA、Intel 和 Broadcom。这些厂商在数据中心的应用场景中扮演着重要角色,尤其是在提供高性能计算和大规模数据传输的需求下,他们的网卡产品大多采用PCIe接口,以满足高速数据处理的要求。

在RDMA(远程直接内存访问)技术的发展中,网卡的端口PHY速率已经成为一个重要的技术指标。一般来说,这些网卡的端口速率从50Gbps起步,并且随着技术的进步,目前市场上已经有商用网卡能够实现单端口400Gbps的速率。

除了商用卡的发展之外,自研DPU也在快速崛起。DPU通过整合多种自研硬件引擎,极大地提升了系统的整体性能。例如:

  • vQPE硬件引擎:这个引擎主要负责提升主机的资源利用效率,管理设备的各种操作和数据交互,简化了硬件的多样性和复杂性,实现了多样化算力的云端部署。

  • BDMA硬件引擎:它为不同的业务流量分发提供了白盒化的软硬件交互编程接口,确保架构的高性能、高可用性和可扩展性,从而让上层软件享受最佳的I/O性能。

  • BOE硬件引擎:通过将网络任务中流表匹配的逻辑从CPU中剥离,并下沉到FPGA中加速处理,实现了快速路径和慢速路径的分离,从而提高了网络处理效率。

  • BDR协议卸载引擎:这个引擎将自研的高性能网络软件堆栈从CPU中分离出来,下沉到FPGA中进行加速处理,构建了数管分离的架构,为用户提供了超大带宽、超密连接和超低时延的RDMA网络连接能力,以更低的成本支持大规模RDMA组网。

(2)RoCE交换机

目前,数据中心的交换机大多数都支持RDMA流控技术,搭配RoCE网卡,实现了端到端的RDMA通信。这一技术组合已经在国内的主要数据中心厂商中广泛应用,尤其是华为和新华三等公司。

高性能交换机的核心部件是转发芯片。在市场上,博通的Tomahawk系列芯片使用相当普遍,尤其是Tomahawk3系列,在现有的交换机产品中非常常见。随着时间的推移,市场上支持Tomahawk4系列芯片的交换机也在逐步增多,显示出这一技术的持续发展和市场需求的扩大。

下图是H3C 数据中心交换机基于Tomahawk 系列芯片的演进和发展路线图。交换机的端口从100Gbps-->200Gbps->400Gbps 演进,整体转发能力在不断提升。

(3)连接件

RoCEv2 承载在以太网上,所以传统以太网的光纤和光模块都可以用。

(4)RoCEv2 流控机制

PFC

PFC(Priority Flow Control)是一种逐跳的流量控制策略,主要用于在以太网络中实现无丢包传输。它的核心在于通过合理配置交换机的缓存,确保数据包能够顺利传递而不被丢弃。

具体来说,当下游交换机的入队列缓存达到一定的阈值(称为Xoff)时,交换机会向上游设备(可能是另一台交换机或网卡)发送PFC PAUSE帧。上游设备在收到该帧后,会暂停数据包的发送,从而缓解下游交换机的缓存压力。即便如此,已经在传输中的数据包仍会被传送到下游,并存储在下游交换机的Headroom缓存中。当下游交换机的缓存占用下降到另一个阈值(Xon)时,它会发送一条持续时间为0的PAUSE帧通知上游设备恢复数据发送。

这种机制通过动态调整数据传输速率,有效地避免了因缓存溢出而导致的数据丢失,是保障高效网络通信的重要手段。

ECN

显式拥塞通知(ECN,Explicit Congestion Notification)是一种用于IP层和传输层的流量控制机制,能够在网络发生拥塞时,通过标记特定的报文传递拥塞信息,从而通知服务器端调整流量。这种机制在RFC 3168中有详细定义。ECN的工作原理是在交换机上为报文打上拥塞标记,服务器接收到标记后,会通过发送CNP报文通知客户端降低传输速率,从而达到控制拥塞的目的。

使用ECN时,有两个关键点需要注意。首先,ECN必须在通信路径上的所有设备上启用,否则将无法实现端到端的ECN功能。其次,CNP报文的发送要与RDMA业务报文分开,并为其设置合适的QoS策略,以确保CNP报文能够及时且不被丢弃,从而避免流控失效。

整体来看,ECN是一种有效的流量控制机制,能够在发生拥塞时及时进行响应,减少网络堵塞带来的影响。但要充分发挥ECN的作用,必须确保所有相关设备和设置的支持与协调。

DCQCN

数据中心量化拥塞通知 (DCQCN) 是一种结合了ECN和PFC的技术,旨在实现端到端无损以太网传输。它的设计核心是在网络出现拥塞时,先通过ECN让发送端降低传输速率,避免直接触发PFC,因PFC的触发会使得流量完全停止。DCQCN的有效实施需要关注两个关键点:确保PFC不会过早触发,从而给ECN反馈时间,同时也要避免PFC触发过晚导致严重拥塞和数据丢包。

为了实现这两个目标,合理配置以下三个参数至关重要:

Headroom Buffers:这是为了应对PAUSE消息从发送方传到上游设备并生效所需的时间。为了防止丢包,PAUSE消息的发送方需要保留足够的缓冲区,以处理在这个过程中可能收到的所有数据包。

PFC Threshold:这是一个入口阈值,当流量达到这个阈值时,交换机会向上游发送PFC PAUSE报文,以防止缓冲区溢出。

ECN Threshold:这是一个出口阈值,当出口队列超过这个阈值时,交换机将开始对数据包进行ECN标记。为了避免过早触发PFC,ECN阈值必须低于PFC阈值。较低的WRED开始填充级别设置可以提高ECN标记的概率,从而降低丢包风险。

2.2.2 RoCEv2 网络方案特点

RoCE方案相对于InfiniBand方案的优点在于其通用性较强且成本相对较低。除了用于构建高性能的RDMA网络外,RoCE还可以在传统的以太网络中使用,这使得它更具适应性。然而,这种方案在配置交换机时会遇到一些复杂的问题,比如Headroom、PFC和ECN相关参数的设置。在像万卡这样的超大规模场景中,RoCE方案的整体网络吞吐性能相较于InfiniBand网络稍显逊色。

2.2.3 RoCE 网络设备供应商

支持RoCE 的交换机厂商较多,市场占有率排名靠前的包括新华三、华为等。支持RoCE 的网卡当前市场占有率比较高的是NVIDIA的ConnectX 系列的网卡。

2.3 InfiniBand 和RoCEv2 网络方案对比
 
 

从技术角度看,InfiniBand 使用了较多的技术来提升网络转发性能,降低故障恢复时间,提升扩展能力,降低运维复杂度。

具体业务场景中,RoCEv2 和 InfiniBand 各有优势。就业务性能来说,InfiniBand 因其更低的端到端时延,在应用层面的表现优于 RoCEv2。然而,RoCEv2 的性能同样能够满足大多数智能计算场景的需求。

从业务规模来看,InfiniBand 能支持单集群达到万卡级别的 GPU 规模,且在大规模应用下性能不下降,具有广泛的商用实践。而 RoCEv2 则适合千卡规模的集群,并且在该规模下仍能保持良好的网络性能。

在业务运维方面,InfiniBand 相较于 RoCEv2 更为成熟,尤其是在多租户隔离和运维诊断能力上,具备更明显的优势。

业务成本方面,InfiniBand 的成本较高,特别是在交换机的投入上,而 RoCEv2 的成本则更为经济。

供应商方面,InfiniBand 主要由 NVIDIA 提供,而 RoCEv2 则有更多的供应商选择,市场覆盖更广。

03
物理网络架构设计
3.1 传统云网络架构承载智算业务存在的挑战
 
 

传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。

在承载VPC网络的底层物理架构中,支撑智算业务面临以下几个主要挑战:

有阻塞的网络架构:为了节省网络建设成本,通常在设计时Leaf交换机的下联带宽和上联带宽并未采用1:1的比例,而是存在一定的收敛比。这意味着实际情况下,上联带宽可能只有下联带宽的三分之一,这就导致在所有服务器同时产生外部流量时,网络可能出现阻塞。

较高的云内部流量时延:在VPC网络中,跨越不同Leaf交换机的两台服务器进行通信时,流量需要经过Spine交换机进行转发。由于这个路径需要经过三次跳跃,因而造成了相对较高的时延,这对于一些实时性要求较高的智算业务来说,可能会影响整体性能。

带宽不足:当前多数物理服务器接入VPC网络时,通常只配备了一张网卡。而这些网卡的带宽往往有限,目前广泛商用的网卡带宽通常不超过200Gbps。在高带宽需求的场景下,这样的带宽可能无法满足智算业务的需求。

3.2 智算网络架构
 
 

对于智算场景,当前比较好的实践是独立建一张高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。

大带宽的设计

对于智算服务器的配置,可以根据需要选择不同的网卡组合。满配8张GPU卡的服务器,考虑到多机组建GPU集群时的跨机通信带宽需求,可以选择4张2100Gbps的网卡,这样每张网卡提供两个100Gbps的端口;或者选择8张1100Gbps的网卡,每张网卡提供一个100Gbps的端口。除此之外,还可以配置8张单端口的200Gbps或400Gbps的网卡,以应对更高的带宽需求。这些配置都可以确保每个GPU都能够分配到足够的网络带宽,满足高性能计算的需求。

无阻塞设计

要实现无阻塞网络设计的核心,就是采用Fat-Tree(胖树)架构。这种架构的关键点在于交换机的上下行带宽的设计,保持1:1的无收敛配置。也就是说,假如交换机有64个100Gbps的下行端口,上行端口也必须匹配同样数量的100Gbps端口。

此外,数据中心级的交换机也要具备无阻塞转发能力。市场上的主流数据中心交换机,通常都支持这种全端口无阻塞的转发功能,确保数据传输的高效性和可靠性。

 

低时延设计AI-Pool

在设计低时延网络架构时,8个接入交换机可以组成一个AI-Pool。通过两层交换机的组网方式,同一个AI-Pool内的不同智算节点之间的GPU互访仅需一次跳转,这大大减少了延迟。

在AI-Pool的网络架构中,不同智算节点的同编号网口必须连接到相同的交换机。例如,智算节点1的1号RDMA网口、智算节点2的1号RDMA网口,直到智算节点P/2的1号RDMA网口,都会连接到1号交换机。这种设计确保了网络连接的高效性。

此外,智算节点内部的通信库会基于机内的网络拓扑进行网络匹配,使得相同编号的GPU卡与相同编号的网口关联。这意味着相同GPU编号的两个智算节点之间可以通过一次跳转实现互通。

对于不同GPU编号的智算节点,通过NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch带宽,将跨节点的不同GPU编号的通信转换为跨节点的相同GPU编号的通信,这进一步提升了网络的整体性能和效率。

对于跨AI-Pool 的两台物理机的互通,需要过汇聚交换机,此时会有3跳。

3.3 智算网络可容纳的GPU 卡的规模
 
 

网络可承载的GPU卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多,承载的GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。

3.3.1 两层胖树架构

8台交换机组成的智算资源池AI-Pool,通过两层胖树网络的设计,最大化了资源利用效率。假设单台交换机有P个端口,其中一半的端口(P/2)用于连接服务器,另一半用于连接其他交换机,这样的设计可以最大限度地支持P*P/2张GPU卡的接入。

3.3.2 三层胖树架构

在三层网络架构中,汇聚交换机组和核心交换机组的设置至关重要。每个组内的交换机数量最多可以达到总数量的一半(即P/2)。汇聚交换机组的数量限制在8个以内,而核心交换机组的数量同样最多可以达到P/2。

在三层胖树网络中,整体网络的架构能够接入的GPU卡数量可以通过以下公式计算:P*(P/2)*(P/2)=P*P*P/4张GPU卡。

具体到实际的硬件配置,若使用40端口的200Gbps HDR InfiniBand交换机,这种配置在三层胖树网络中最多能够容纳16000张GPU卡。这个规模代表了目前InfiniBand在国内应用的最大GPU集群规模。

3.3.3 两层和三层胖树网络架构的对比

两层胖树和三层胖树架构的主要区别在于可容纳的GPU卡的规模不同。具体来说,两层胖树架构的可扩展性较低,适合规模较小的系统,比如端口数为40的交换机下,最多可以支持800个GPU卡。而三层胖树架构则具有更强的扩展能力,在同样的交换机配置下,可以支持多达16000个GPU卡。

转发路径

两层和三层胖树架构在网络转发路径跳数上确实存在显著差异:

    两层胖树架构:

三层胖树架构

    • 在同一个智算资源池中,如果智算节点间的GPU卡号相同,网络转发路径的跳数为1跳。

    • 如果智算节点间的GPU卡号不同,并且没有进行智算节点内部的Rail Local优化,转发路径的跳数则为3跳。

    • 同样在智算资源池中,如果智算节点间的GPU卡号相同,转发路径的跳数为3跳。

    • 如果智算节点间的GPU卡号不同,并且没有进行智算节点内部的Rail Local优化,转发路径的跳数为5跳。

这个跳数差异意味着三层架构在没有进行优化时,跨节点通信的延迟较大,这可能会对某些计算密集型任务的性能产生影响。

3.4 典型实践
 
 

基于不同型号的InfiniBand和RoCE交换机以及各种网络架构,所能支持的GPU规模各异。以下是几种基于成熟商用交换机的物理网络架构推荐规格:

Regular规格:使用InfiniBand HDR交换机,构建两层胖树网络架构,单个集群最多可支持800张GPU卡。

Large规格:基于128端口100G数据中心以太交换机,采用RoCE两层胖树网络架构,单个集群最高支持8192张GPU卡。

XLarge规格:采用InfiniBand HDR交换机,构建三层胖树网络架构,单个集群最大可支持16000张GPU卡。

XXLarge规格:利用InfiniBand Quantum-2交换机或等效性能的以太网数据中心交换机,采用三层胖树网络架构,单集群最高可支持100000张GPU卡。

3.4.1 Large 智算物理网络架构实践

某项目的“智能化征信解读中台”工程,通过先进的智算集群技术,提升了上层应用和算法的创新能力。这个项目的核心在于其强大的底层算力,尤其是由高性能网络支撑的智算集群发挥着至关重要的作用。每个智算集群规模可达8192张GPU卡,内部的智算资源池AI-Pool可以支持512张GPU卡。通过采用无阻塞、低时延、高可靠的网络设计,该系统有效支持了上层智算应用的快速迭代,推动了整体项目的发展和优化。

3.4.2 XLarge 智算物理网络架构实践

为了进一步提升计算集群的整体性能,智算物理网络架构进行了深度优化,特别是在网络收敛比和网络吞吐能力上有了显著提升。此外,通过引入容错机制、交换机亲和性以及拓扑映射等技术手段,使得EFLOPS级的计算集群性能得到了充分的发挥。根据内部NLP研究团队的验证结果显示,在这种优化后的网络环境中,同等规模的超大集群上运行千亿级模型训练任务时,整体训练效率相较普通GPU集群提高了3.87倍。

04
智算高性能网络运维管理

RDMA的通信方式与传统的TCP/IP网络有明显的不同,这也导致了在智算高性能网络的运维管理上,与以往的IP网络有所差异。具体来说,RDMA网络具备以下几个关键特点:

首先,RDMA的流量具有强烈的突发性特征,这要求运维管理具备高精度的流量采集能力。传统的SNMP采集方式往往以30秒为采样精度,这已经不足以准确反映RDMA网络中的关键带宽业务指标。

其次,RDMA的流量通过端口的某个队列发送,因此,需要更为精细的流量统计能力。与传统的端口级别统计相比,RDMA要求将统计维度细化到队列级别,以更好地反映网络流量的真实情况。

此外,全面的RDMA流控指标采集和统计也是必要的。RoCE网络依靠PFC(优先级流控制)和ECN(显式拥塞通知)报文进行流量控制,因此,运维管理系统必须提供对这些关键指标的全面采集和统计能力。

只有在具备了上述基础的RDMA网络可视化能力后,才能充分利用RDMA网络的优势,迅速发现并定位问题,从而确保网络的高效运行。

4.1 可视化网管系统
 
 

当前,RDMA网络的可视化网管系统主要依赖于设备厂商的支持,而在云厂商中,能够提供私有化部署的云原生RDMA网络可视化管理系统的厂家较为稀缺。云原生的RDMA网管系统最大的优势是可以与云平台的告警策略、告警规则无缝衔接,真正融入用户的云平台运维管理体系中。而非云原生的RDMA网管系统最大的缺陷是未能真正成为云平台运维体系的一部分,无法做到与云平台的高效协作,导致运维管理的时效性和有效性大打折扣。

在云平台管理InfiniBand网络时,关键在于实现与UFM(统一网络管理器)的对接与数据打通。

针对私有化部署的RDMA可视化运维管理平台,能够提供以下核心功能:

实现高精度、秒级的端口和队列级监控,并展示流量TOP大盘;

提供全面的RDMA流量监控指标,包括关键的PFC和ECN指标;

支持自定义告警规则,并具备告警大盘展示功能;

提供网络诊断工具,帮助用户快速定位和解决问题。

4.1.1 集群网络可视化

在智算集群内部,机器之间的RDMA流量频繁且高速,RDMA流量的可视化工具能够帮助运维人员实时监控高性能RDMA网络的实际运行状况,还能快速定位和解决网络问题。

为了实现高精度的RDMA网络流量监控,需要在交换机上启用Telemetry采样功能。启用后,交换机会每秒钟上报一次流量数据,后端服务器收集到这些数据并将其发送到前端进行展示。最终,用户可以在前端实时查看到秒级精度的监控数据。这种机制确保了RDMA网络运行状态的透明性和监控的准确性,有助于迅速发现和解决潜在的网络问题。

4.1.2 智算节点内部网络可视化

在智算节点内部,各种关键组件如GPU、网卡和CPU通过PCIe Switch和NVSwitch实现高效互联。

PCIe Switch负责连接CPU、网卡和GPU,利用PCIe 4.0或5.0总线进行数据传输。其中,PCIe 4.0 x16通道的单向带宽达到256Gbps,而PCIe 5.0 x16则提升至512Gbps。这样高带宽的传输能力,保证了各组件之间的数据交换速度,极大地提升了系统的整体性能。

NVSwitch则是通过NVLink技术将GPU进行全互联。NVLink 2.0提供每通道200Gbps的单向带宽。例如,A100 GPU每个使用12条NVLink,单向带宽可达2.4Tbps,而H800 GPU使用了18条NVLink,带宽则提升至3.6Tbps。GPU之间的通信优先通过NVLink,确保高效的数据交换。

CPU之间的连接通过UPI总线进行,每条UPI总线的单向带宽为166Gbps,双路CPU服务器中,通过两条UPI总线互联,总带宽达到332Gbps。

不同通信链路的带宽存在差异,如果上层应用未能充分利用这些带宽,可能会影响智算业务的训练和推理效率。因此,尤其在优化场景中,监控主机内部的NVLink和PCIe带宽至关重要。为了提升智算业务的训练和推理效率,RDMA网管平台需要具备对这些带宽的实时监控功能,实现智算集群网络和主机内部网络的可视化监控。

这样的精细化管理,不仅能提高系统的整体效率,还能确保在高负荷场景下,各组件之间的通信畅通无阻,真正发挥出智算节点的最大潜能。

4.2 高精度流量采集
 
 

为了满足高精度流量监控的需求,现在普遍通过在交换机设备上启用Telemetry功能来实现对流量和设备状态的采集与统计。Telemetry有几个显著的特点:

采样精度高:Telemetry可以实现秒级精度的流量统计和采集,能够满足对细节流量监控的需求。

高性能:Telemetry通过硬件方式在交换机设备上运行,不会占用设备的CPU资源,这意味着即使在高负载情况下,设备的性能也不会受到影响。

按需订阅:用户可以根据需求订阅特定的统计项目,Telemetry会根据订阅内容将数据推送给订阅者。

Telemetry结合了gRPC技术,能够高精度地采集流量和设备状态信息,并将这些数据存储在时序数据库中,方便前端进行可视化展示。

4.3 数据可视化展示
 
 

专有云ABC Stack的RDMA网络可视化管理系统AI-NETOP,不仅让用户在前端自定义RDMA网络的监控指标,还能自由创建定制化的监控大盘。通过Telemetry协议采集的各类数据,用户可以灵活选择展示内容,并且能够配置类似TOPN的大盘展示方式,提升了网络管理的直观性和高效性。

4.4 智能化
 
 

故障归因

AI-NETOP 这个RDMA网络可视化管理系统在处理异常情况时表现出了非常先进的智能化能力,尤其是在故障归因方面。系统内置了复杂的算法和规则,能够精准判断丢包的具体原因,比如识别出是由ACL引起的丢包,还是因为缓存不足导致的丢包。

自动修复

在一些特殊情况下,可能会发生配置丢失的问题。比如说,服务器重启后,由于配置恢复的顺序出现问题,网卡上的某个关键配置没能正确恢复。在这种情况下,RDMA 网络可视化管理系统AI-NETOP能够识别出配置是否成功恢复。如果发现恢复不完整,系统会自动重新下发配置命令,确保关键配置得以修复。整个修复过程完全由RDMA管理系统自动完成,运维人员无需介入或感知。

可编程的告警规则

自定义和可编程的告警规则能够有效地将用户在运维中的经验转化为代码,在实际操作中更灵活地应用。比如,在一些场景中,某些告警并不需要处理,如在变更和升级窗口期间,设备端口的up/down告警可以被忽略。而在一些重要场合,如重大运营活动期间,网络丢包的告警则需要提高优先级,确保问题能够迅速得到响应和解决。

可感知和可量化的网络质量

通过在计算节点内部安装RDMA Agent,从应用层进行质量探测,并将探测数据上报到网管平台。RDMA 网管平台基于收集到的数据并以可视化的方式呈现应用层的网络质量信息。

实时告警

对于网管平台来讲,一个关键的能力是实时的感知并通告异常和故障,让运维人员可以及时地感知和处理。RDMA 网络可视化管理系统AI-NETOP 支持实时的通知告警事件给运维人员。

05
智算高性能网络运营管理

智算资源池建成后,关键在于如何充分利用这些资源,以最大化算力资源的效用。客户构建了一个PFlops规模的算力资源池后,通常会将其分配给多个租户使用,这些租户可能包括多个内部团队等。在这种情况下,合理的资源分配和高效的调度策略是确保各方能够充分利用算力资源的关键。

5.1 产品化的多租户能力AI-VPC
 
 

AI大底座的智算网络是一张独立且高性能的网络,运维和管理完成后,接下来的目标是提供产品化的多租户隔离能力,以提升GPU和高性能网络资源的利用率。类似于IP网络通过VPC(虚拟私有云)实现多租户隔离的原理,智算网络通过AI-VPC来实现AI类业务的多租户隔离。AI-VPC中包含多个智算节点,同一AI-VPC内的智算节点可以相互访问,而不同租户之间的智算节点则处于隔离状态,无法互访。此外,部分智算节点会同时连接IP网络和智算网络,此时这些智算节点将同时归属于IP网络中的某个VPC和智算网络中的某个AI-VPC,实现双重网络的隔离与互通。

具备多租户能力后,可以将整个智算节点资源池从逻辑上划分为多个智算集群,分别供不同的内部或外部租户使用。在IP网络中,VPC通过MAC in UDP的VXLAN技术在Overlay层面实现多租户隔离。而智算网络的AI-VPC则更加注重高性能,选择使用Partition-Key或网络ACL的方式来实现多租户隔离,以确保各租户在高性能计算任务中的资源独立性和安全性。

5.2 InfiniBand 网络的多租户方案
 
 

InfiniBand 网络通过Partition-Key(P-Key)机制来实现多租户组网,从而有效地隔离不同租户之间的业务。P-Key 是一个16-bit 的数字,最高位决定了互通能力:bit=1表示完全互通,bit=0表示有限互通,而其余的15 位用于标识租户ID,理论上可以支持多达32768 个租户。P-Key 可以关联到网络中的交换机端口、网卡端口,甚至应用层的Queue-Pair(QP)上,以此实现精细的隔离和控制。云平台需要统一管理和设置P-Key,系统默认的P-Key值为0XFFFF,代表没有隔离、完全互通。

5.3 RoCE网络的多租户方案
 
 

RoCE网络的多租户隔离主要是通过分配不同的网段给不同租户,然后结合访问控制列表(ACL)实现的。这种方式的基本思路是,先给每个租户分配独立的IP地址段,然后利用ACL来限制只允许相同网段内的IP进行通信,从而达到租户间隔离的效果,同时确保租户内部的网络是完全互通的。

整个多租户隔离过程依赖于云平台与RoCE SDN控制器的协作。当服务器启动时,它会将租户ID以及与其连接的RDMA交换机的上联端口信息上报给云平台。云平台基于接收到的租户ID信息,为服务器分配相应的子网和IP地址。接下来,云平台会通过调用RoCE SDN的接口,将该租户网段的ACL规则配置到对应的RDMA交换机上联口,从而实现租户间的网络隔离与租户内的网络互通。

5.4 通过RDMA 网络提供公共服务
 
 

在某些场景下,GPU集群需要通过RDMA网络访问公共服务,如并行文件存储系统(PFS)。这种类型的服务可以被视为RDMA网络中的一个特殊租户。通过RDMA网络控制器,可以为这个租户配置相应的访问控制策略,从而确保GPU集群能够安全、有效地访问这些公共服务,同时保持其他租户的网络隔离性。

5.5 典型实践
 
 

智算中心的建设一般由政府、园区或大型企业主导,采用云服务模式为相关部门、园区企业及企业子公司提供算力支持。不同的租户在使用算力服务时,面临着各类需求,如AI推理、AI训练(从单机单卡到多机多卡的不同规模)、模型评估和推理等。这些需求的背后,数据和算力(CPU、GPU)是AI发展的两大核心要素。

在实际操作中,智算中心建设者必须解决以下关键问题:

租户间的数据和算力的安全隔离:确保不同租户的资源在使用时不会互相干扰,保证数据和算力的安全。

租户内算力和数据的高效通信:特别是在多机多卡和单机多卡的场景下,优化训练速度,提升热数据的传输效率,以提高GPU的利用率。

数据和算力之间高速网络的管理和可视化:确保网络传输的稳定性、可控性及透明度。

在某个智算中心的案例中,通过部署高速RoCEv2网络来优化算力和数据之间的通信,同时实现了多租户的安全隔离。此外,还部署了并行存储系统,用于存放训练中的热数据,满足部分推理场景中对数据的实时或准实时处理需求。

相关阅读:ToC课程|AI算力集群技术高级课程:从基础到优化的全面技术研修
关于TsingtaoAI
 
 
 
 
 

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

 

TsingtaoAI自研基于LLM大模型的AIGC应用开发实训平台、基于LLM大模型的AI通识素养课数字人助手、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

 

 

Product & Case.

产品与案例