智算中心高性能网络流量调度技术研究及实践
智算中心与传统数据中心在建设目的、应用领域和主要特征方面有着明显的区别。
建设目的方面,传统数据中心的主要任务是提供IT资源支持,包含计算、存储和网络等基础设施服务,旨在确保企业的日常运营、业务处理以及信息系统托管的稳定性和安全性。它们更多关注的是为企业提供稳定的基础服务,保证业务的连续性。而智算中心则进一步拓展了这一基础,重点放在智能计算领域,专注于支持人工智能算法的训练、推理以及大数据分析等复杂的计算任务。它的建设目标是推动各行业的数字化和智能化转型,加速产业AI化和AI产业化的进程。
在应用领域上,传统数据中心服务于各类企业和组织,广泛应用于企业资源规划(ERP)、客户关系管理(CRM)等传统信息系统,适用于多种行业。而智算中心则主要聚焦在人工智能、机器学习、深度学习等前沿领域,旨在满足智能化应用的发展需求,服务于高性能计算和新兴的技术领域。
主要特征方面,传统数据中心通常提供基础设施即服务(IaaS)、软件即服务(SaaS)和平台即服务(PaaS),其硬件配置以标准化的服务器、存储设备和网络设施为主,运维管理相对静态,资源扩展性有限。而智算中心则更加注重计算性能的优化,特别是在GPU驱动的智能算力上具备优势,并且拥有大规模存储和高速数据处理能力。其设计更趋向于模块化和弹性扩展,同时注重自动化和智能化的运维能力,以适应复杂多变的计算任务需求。
智算中心在计算性能、应用领域的针对性以及运维管理的智能化方面,都显著优于传统数据中心,且更能支持当前数字化和智能化发展的潮流。
1.2.1 AI模型训练
人工智能如今已经成为数字经济发展的核心动力,也是新一轮科技革命和产业变革的重要推动力。大模型技术因为其强大的通用性和泛化能力,正在引发新一轮的科技变革,加速了社会和产业的转型。各大科技公司纷纷推出了千亿参数的大模型,OpenAI的GPT-3模型参数已经达到了1750亿。截至2023年,国内发布的大模型数量已超过200个,其中自然语言处理成为大模型研发的关键领域。
在AI模型的训练过程中,需要依靠数据集对模型进行训练,并通过损失函数的反向传播来调整模型参数,这一过程需要多轮迭代。由于大规模参数的需求,训练对算力和内存的要求也越来越高。通常,训练过程会采用分布式技术,将数据和模型切分后,通过多台机器和多张GPU卡组成的算力集群来协同计算,以此来减少训练时间。
然而,集群规模的扩大并不意味着算力的线性增长,因为随着GPU集群的扩展,通信开销也会增加,这可能抵消掉部分计算的收益。GPU集群之间的同步时间对整体效率有着直接影响,因此,分布式训练系统的瓶颈正在从计算能力转向网络通信约束。
图1 集群规模与FCT关系示意
同时大模型训练也要求网络能够提供更高的稳定性与可靠性。因此,AI模型训练对无损网络的需求非常强烈。
1.2.2 高性能存储
随着大规模计算需求的兴起,高性能存储系统的需求显著增加,这主要体现在以下几个方面。
a)性能需求。在大规模计算任务中,存储系统的性能至关重要,尤其是在数据加载和最终保存阶段。如果存储性能不足,将导致昂贵的计算资源因等待而浪费。因此,减少这种等待时间是存储系统的关键目标。这要求存储系统具有极高的吞吐能力。
影响分布式存储性能的两个主要因素是存储介质的时延和节点之间的网络通信时延。随着SSD性能的提升和NVMe存储接口协议的出现,存储系统内部的吞吐性能得到了显著提高。然而,虽然存储介质的时延已显著降低,但网络通信时延在整体时延中的占比却大幅上升,已从原来的不到5%增长到大约65%。这使得网络通信时延成为当前分布式存储系统提升吞吐性能的主要瓶颈。
图2 分布式存储SSD场景下网络时延占比
b)文件大小。在AI高性能计算(HPC)环境下,存储系统面临独特的挑战,尤其是在处理大量小文件方面。海量小文件对存储系统的扩展性以及元数据处理能力提出了更高的要求,迫使存储系统必须在这些方面具备更强的适应性。
c)接口需求。接口需求方面,POSIX文件接口仍然是当前最主流的存储接口。作为POSIX的一部分,分层文件系统(HCFS)能够简化HCFS SDK的开发,确保符合POSIX标准。在HPC领域中,存储系统不仅需要完全兼容POSIX接口,还必须适配MPI-I/O框架,以支持更复杂的数据处理需求。
d)数据持久化与临时存储。数据持久化与临时存储对存储系统来说至关重要。确保关键数据的持久化是基本要求,必须防止数据丢失。因此,存储系统需要在性能、文件处理能力、接口兼容性,以及数据持久化和临时存储策略上进行优化,以满足多样化和复杂化的应用场景需求。
智算中心对高性能网络的需求可以从组网规模、 带宽、丢包时延抖动和稳定性几方面进行分析。
a)从组网规模来看,传统数据中心的网络节点数一般不超过1000个,而随着数据并行和模型并行技术的进步,智算中心在分布式训练中需要使用成千上万的GPU卡来加速训练。这种扩展需求远超传统的数据中心,要求更大规模的组网能力。
b)从带宽需求来看,传统数据中心的接入带宽通常在10G/25G,而汇聚核心带宽则为40G/100G。相比之下,智算中心的高性能网络采用1:1无收敛组网方式,接入侧服务器通常配备8张GPU卡,每张GPU卡通常对应一个网络端口,当前单端口带宽需求已经从100G逐步向200G、400G发展,以应对更高的网络流量需求。
c)从丢包、时延、抖动需求来看,在分布式计算场景中,计算时间不仅取决于单卡计算能力,还包含了卡间通信时间的消耗。因此,降低卡间通信时间成为提升分布式训练加速比的关键。传统数据中心网络的时延一般为亚毫秒级,但在网络拥塞时可能增加至秒级。而智算中心则要求网络能够实现零丢包和微秒级时延,以确保RDMA技术的高效运行。
d)从稳定性角度来看,传统数据中心的检测时间通常为50ms,网络收敛时间在秒级或分钟级。而智算中心由于其高性能需求,要求网络稳定性达到亚毫秒级别,以保证系统的持续高效运行。
在典型的AI大规模网络中,网络部署、测试验收、 运维以及变更全流程的复杂程度呈现指数级增长,传统网络依靠人工完成,耗时耗力且容易出错,智算中心网络需要实现多维度自动化能力的升级。智算中心网络管控系统具备自动化端到端部署、 自动化测试和验收、自动化运维的能力。
a)自动化端到端部署。高性能网络通常涉及复杂的配置,如拥塞控制算法和RDMA无损技术。配置工作繁琐,覆盖从网卡到网络交换机的多种设备。通过自动化的端到端部署,不仅能够大幅提升部署效率,还能为系统的扩展性提供坚实的基础。。
b)自动化测试和验收。在部署完成后,系统需要针对智算场景进行一系列的自动化测试和验收,以确保配置、可靠性和业务性能都达到预期。这一过程不仅能减少人工测试的时间,还能提高测试的准确性和全面性。
c)自动化运维。运维自动化是维持网络性能和可靠性的关键。面对突发的网络故障或性能问题,自动化运维可以通过可视化和快速故障定位功能,帮助运营人员迅速解决问题。自动化运维包括精细化采集、超可视化监控和自动化变更。
(1)精细化采集。为了应对RDMA流量的突发性和复杂性,传统的30秒SNMP采样已不足以监控关键指标。因此,需要更精细的采集手段,将监控粒度从端口级细化到队列级别,并采集包括PFC和ECN等关键拥塞指标在内的更多数据。
(2)超可视化监控。智算中心网络的管控系统应具备超可视化的监控能力,不仅要覆盖交换机、服务器和GPU卡之间的网络关系,还需实现秒级流量监控和关键指标的统计,如丢包率、时延、吞吐量等。此外,还要具备节点内部的可视化能力,监控GPU利用率及PCIE和NVLink的带宽使用情况。
(3)自动化变更。在高性能网络中,业务需求变化、新技术引入和故障修复都可能频繁引发配置变更。自动化变更不仅是确保网络安全的重要手段,也是网络自优化和自演进的基础能力。这一功能能够保障网络在面对变化时,仍然能够稳定高效地运行。
因为RoCEv2 缺乏完善的丢包保护机制,对于网络丢包异常敏感,因此拥塞控制算法的优化对智算中心的网络性能至关重要。
2.3.1 DCQCN
由于Mellanox网卡的局限性,当前广泛应用的拥塞控制协议是DCQCN(数据中心量化拥塞通知)。它基于QCN和DCTCP,结合了ECN(显式拥塞通知)和PFC(优先级流控),支持端到端无损以太网。DCQCN的工作原理是通过ECN在网络开始拥塞时降低传输速率,以减少触发PFC的频率,从而避免网络流量的完全停止。该协议包含发送端(RP)、交换机(CP)和接收端(NP)三部分。
在交换机中,CP算法会在出口队列长度超过设定阈值时,通过RED功能将数据包标记为ECN。这种标记的概率取决于队列长度:低于下限阈值时,不标记;超过上限阈值时,全部标记;在两者之间时,标记概率随着队列长度的增加线性上升。
NP算法则负责在接收到ECN标记的数据包时,将拥塞信息反馈给发送方。根据RoCEv2标准,专门定义了用于此目的的CNP(拥塞通知包)。该算法规定,如果在最近的N微秒内未发送过CNP,则在接收到ECN标记数据包时立即生成并发送CNP。在相同时间窗口内,如果同一数据流再次接收到ECN标记,网卡每隔N微秒最多生成一个CNP包。
RP算法通过调节发送速率应对收到的CNP包。发送方通过内部计时器和字节计数器持续增加速率,但在接收到CNP包时会降低速率。同时,该算法维护了一个α参数,表示网络的拥塞程度,并用于计算降速。α的值基于CNP到达的时间间隔动态调整,具体更新方式为:new_α=g×old_α+(1−g)×CNP_arrived,其中g是一个常量,CNP_arrived表示在上一个时间间隔内是否有CNP到达。
图3 RP算法流程示意
在拥塞节点(CNP)被检测到时,队列对(QP)的传输速率会按公式new_rate = old_rate × (1−2α)进行减少,并重置用于增加速率的参数。这个机制的工作原理与QCN(量化拥塞通知)类似,系统会经历三个阶段:快速恢复、积极增加和超积极增加。在每个阶段中,系统根据累计的加速事件数量来决定是否进入下一个阶段。当某个阶段的加速事件超过阈值时,系统就会转入下一个阶段。降速事件会重置所有与加速相关的计数器,并使系统回到快速恢复阶段。
在加速过程中,系统会在降速前将当前速率保存在名为target_rate的参数中。如果在一个预定义的时间间隙或在发送了一定字节数后,没有发生降速事件,就会触发加速事件。在快速恢复阶段,每次加速事件会让速率增加到target_rate与当前速率之间的中点。这种调整可以让系统在快速恢复阶段迅速接近拥塞前的速率,并在接近拥塞点时更谨慎地增加速率。在接下来的两个阶段中,一旦发生加速事件,速率会按照固定值增加,以便在带宽释放后获得更高的吞吐量。
图4 DCQCN降速升速过程
DCQCN的参数配置对网络性能的影响非常显著,尤其是在处理不同的网络拓扑和流量时。由于DCQCN的可调参数超过16个,合理的参数调整就变得至关重要。在不同的参数配置下,网络吞吐量可能会出现超过50%的差异。因此,为了充分发挥网络的带宽吞吐能力,必须在交换机以及发送端和接收端根据实时的网络流量状况进行参数的优化调节。
此外,由于DCQCN参数的复杂性,单靠人工手动调整显然效率不高,容易出现问题。结合管控平台,通过对端网两侧参数的联合优化,可以更有效地提升整体网络性能。这个过程中,智能化、自动化的调优手段将成为网络优化的关键工具,使网络能够在各种流量环境下始终保持最佳性能表现。
2.3.2 AI-ECN
某些无损网络方案,例如某厂家提出的AI-ECN技术,能够根据现网流量模型,智能调整无损队列中的ECN门限。这项技术可以在零丢包的情况下,确保网络具备低时延和高吞吐量,从而最大化无损业务的性能。AI-ECN通过嵌入式AI进行智能计算,这个嵌入式AI是一个内置于设备中的通用框架系统,能够为AI-ECN提供模型管理、数据获取和预处理等功能,并支持将推理结果发送给AI-ECN(见图5)。
图5 无损队列的AI-ECN功能实现原理
网络设备中的转发组件会采集当前流量的特征数据,例如队列缓存占用率、带宽吞吐量以及ECN门限配置等。这些信息通过Telemetry技术实时推送给AI-ECN组件。一旦启用AI-ECN功能,它会自动订阅嵌入式AI系统的服务。根据嵌入式AI系统推送的流量状态信息,AI-ECN组件会智能判断当前网络流量场景是否为已知场景。
如果当前流量模型已经在嵌入式AI系统中训练过,则AI-ECN将其识别为已知场景,并通过神经网络(NN)算法,推理出最优的ECN门限配置,称为模型推理模式。这种模式能够根据既有数据快速匹配并优化网络性能。
若当前流量模型未被训练过,则AI-ECN会将其判断为未知场景,并采用启发式搜索算法。在这一过程中,AI-ECN通过BBR(Bottleneck Bandwidth and RTT)算法,实时调整ECN门限,以保障高带宽和低时延,最终确定最优配置,这种模式称为启发式推理模式。
AI-ECN随后将计算出的最优ECN门限下发至设备,调整无损队列的ECN门限。设备获取新的流量状态后,将重复这一过程,以确保无损业务的最佳性能。
尽管AI-ECN在优化网络性能方面展现了强大的潜力,但仍面临以下局限性:
数据依赖:AI-ECN的性能严重依赖于训练数据的质量和数量。若训练数据不足或不具代表性,AI-ECN的性能可能受到限制。
部署复杂性:AI-ECN的部署过程较为复杂,需要在网络设备上集成AI模型,这对硬件和软件都提出了更高要求,从而增加了部署的难度和成本。
实时性要求:AI-ECN需要实时监控并响应网络流量的变化,以调整拥塞控制策略。这对于需要低延迟和高性能的应用来说是一个挑战。
数据隐私和安全:在使用AI-ECN时,涉及到敏感数据的处理,如网络流量信息,确保这些数据的隐私和安全是至关重要的。
复杂性增加:AI-ECN引入了更多的复杂性,使得网络管理和故障排查更加困难,管理员需要掌握AI模型的工作原理。
鲁棒性问题:AI模型在处理未知或异常情况时可能表现出鲁棒性不足,导致意外的网络问题,环境的变化可能影响AI-ECN的性能。
智算中心要想实现无损网络流量管理,必须具备一个强大的管控平台,这个平台不仅要能够精确采集和监控网络流量与拥塞控制信息,还要具备自动化的算法调优能力。这种平台需要能够应对突发问题和故障排查,实现全方位的自动化管理。
为了达到这些要求,智算中心的管控平台可以采用异构分布式计算架构,借助数据驱动的方法来实现全面、一体化的运营、维护和监控。这种架构设计能确保系统在处理复杂任务时保持高效、稳定,从而更好地支持智算中心的整体运作。图6展示了这种总体架构的设计。
图6 智算中心无损网络流量管理平台架构
智算中心的无损网络管控平台采用了分层架构设计,从上至下分为用户界面层、核心逻辑层和网络数据接入层。核心逻辑层通过南向接口与交换机和服务器相连,而北向接口则提供标准化的服务和接口,支持命令行(CLI)和Web界面两种用户交互方式。这两种界面功能一致,能够执行各种查询和配置命令,并支持定制自动化脚本的运行。
该平台的核心功能包括:
网络拓扑发现:自动识别网络中的设备,如交换机和服务器,并生成它们之间连接关系的拓扑视图。
集中式管理:平台可以全面覆盖所有网络设备的详细信息和运行状态,提供一站式的查询服务,实现网络基础设施的集中管理。
自动化配置:通过内嵌的设备配置模板,平台能够自动适配设备功能,并生成配置,支持一键部署到所有设备。配置校验功能进一步确保配置的正确性,降低了手动配置的工作量。
超可视化监控:自动采集并显示网络设备的运行状态和流量的动态遥测数据,提供高度可视化的网络运行视图和流量动态视图,帮助全方位监控网络状态,预测流量趋势,辅助决策。
错误告警:在网络发生错误时,平台能够及时提供不同级别的错误信息,并迅速进行故障恢复。
主机端融合网络功能:主机服务器集成了高性能的通信库,并内嵌了智能流量控制机制,能够实现流量的超无损和超均衡。此外,平台在存储端支持基于ROCE的高性能存储。
这个架构和功能组合,使得网络管控平台在高效管理、精确监控和智能配置等方面都达到了一个新的水平。
端网协同的解决方案主要有两个核心方面:
首先,通过对端侧(如算力服务器)和网侧(包括spine和leaf交换机)的流量及拥塞信息报文(如PFC、ECN、CNP)的近实时统计,来实时监控网络的拥塞状态。这种监控能够帮助迅速发现并应对网络中的潜在问题。
其次,在长期的监控基础上,智能分析和总结网络的拥塞特点,进而动态调整DCQCN等相关参数。同时,对leaf交换机上的hash流进行配置或路径的优化指定,旨在降低网络拥塞的可能性。这种方式能够显著提升AI训练过程中的数据同步效率和整体训练效能。整个过程通过管控平台来实现,以确保拥塞控制和负载均衡的优化。
图7 拥塞控制和负载均衡的优化流程
为提升网络性能和稳定性,系统设计了一个多步骤的自动化流程,涵盖从数据采集、监控分析,到配置执行的各个环节:
数据采集:系统会频繁采集网络路径中涉及的PFC(优先级流控)、ECN(显式拥塞通知)和CNP(拥塞通知包)的报文统计数据。这些数据包括路径的端侧和网络侧的情况,并实时更新到数据库中。
监控分析:管理平台会利用PFC/CNP监控组件,定期扫描数据库中存储的各交换机和算力服务器的PFC、ECN、CNP标记的报文统计数据。根据数据对应的端口信息,平台能够识别出链路的连接信息,并依据预设条件,将拥塞情况的描述记录到时序数据库,同时将链路的连接关系存入关系型数据库中。
路径调优:路径调优组件会定期读取并分析由PFC/CNP监控组件生成的数据,以判断网络是否出现拥塞情况。如果检测到拥塞,系统会根据既定策略,调整算力服务器上的DCQCN参数,并修改交换机上的流量路径和hash规则。随后,这些调整指令会通过自动化配置组件生成相应的配置命令,并更新到数据库中。
命令生成与执行:DCQCN组件从数据库中提取配置命令和相关节点信息,形成一个完整的配置命令序列。这些命令会通过南向接口依次下发至配置管理组件。对于单台设备,命令会按顺序下发;而对于多台设备,系统会根据策略并行下发命令,以提高整体配置效率。
配置实施:配置管理组件通过既定的管理通道,将相应的配置指令传送至目标设备上。
结果反馈与后续处理:设备执行完配置指令后,会将结果反馈给配置管理组件,后者再将结果回传至DCQCN管理组件。根据配置结果,系统将决定是否继续执行后续配置命令,或在失败时根据策略触发告警处理等措施。
在高性能网络环境下,DCQCN参数的选择对训练中的TFLOPS表现有着显著影响,最高可达50%。通过结合英伟达的DCQCN配置参数以及实际调优经验,可以大幅提升网络利用率。为此,本文总结了DCQCN参数的默认值、调参范围及相关概念,并提供了实际使用中的调优建议,帮助你在复杂的网络拓扑和流量场景下,找到最适合的配置,从而优化网络性能,提升计算效率。具体的参数和调优细节请参考表1。
表1 DCQCN参数默认值、调参范围及概念
在DCQCN算法中,只关注单一端侧参数或几个重要参数的调整并不足够全面。为了实现最佳效果,通常需要端网同步调参。通过模拟退火算法,可以高效地找到最优参数组合。在实验中,为了验证DCQCN参数调优的效果,我们搭建了如下实验环境:
我们使用了4台服务器,共配置了32张GPU卡,每台服务器配备2个网卡,链路速度均为100Gbit/s。组网拓扑如图8所示。通过使用nccl-test工具,我们对调参前后的性能进行了对比测试,主要测试了四种集合通信操作:All Reduce (AR)、Broadcast (BC)、All Gather (AG) 和 All to All (A2A)。每种操作测试100组,同步消息大小为1GB。实验结果如图9所示,其中横坐标表示100组的分布比例,纵坐标表示nccl-test输出的吞吐量,单位为GB/s。
图8 组网拓扑示意
图9 AI-DCQCN调优结果
调参后的优化效果显著,尤其是在All to All通信操作中,表现尤为突出。这种提升的背后主要归功于对DCQCN参数的精细调整,比如降低拥塞通知的响应阈值,优化速率调整策略等。这些调整可以更好地管理数据中心的网络流量和拥塞情况。在All to All操作中,节点之间的数据交换非常频繁,容易造成网络瓶颈,而优化后的参数能够更平滑地处理这些数据包,减少网络拥塞,从而提高整体数据传输效率。尤其是在流量情况相对简单的高性能网络中,这种优化能够带来显著的性能提升。
无损网络具备低延迟、高吞吐量以及高质量的网络服务能力,但要达到这一点,需要综合网络层、管控层和应用层的各项技术进行协同优化。根据不同的智能计算应用特点进行优化,可以最大化计算和存储网络的利用率,从而大幅提升智能计算中心的网络性能。这种优化不仅能确保网络的高效性,还能为智能计算提供更强的支撑,进一步推动技术的发展和应用的普及。
TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。
TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。