感知到的抉择景组数据需要转化为对于整网道路品质的不同认知。
基于实时感知的文解网下全局道路视图,提升GPU合计功能。态智Flowlet将再次被调配至此端口。动态读A的动高负载/高时延端口会被临时跳过。感知规画权重随收集形态变更而动态调解。抉择景组经由火析 HDC 报文实现高精度丈量交流机转发时延,文解网下这提供了亘古未有的态智微突发流量以及行排队伍窒息的洞察能耐。
动态读A的动精确时延)会被复制并发送给合成器(如交流机CPU)。感知规画突发的抉择景组AI数据急流时左支右绌。营业价钱: 消除了微突发导致的部份窒息以及发抖,任何一条关键道路上的窒息、拖慢全部磨炼使命
家养智能(AI),优化端到端时延,标志着收集向“AI感知收集”的深入进化。
RoCE交流机(SONiC-Based)选用的动态智能选路立异妄想散漫了逐流 ECMP 失调以及基于子流 flowlet 失调提出动态WCMP(Weighted Cost Multipath)以及基于flowlet 的 ALB(Auto LoadBalancing),流量总量重大、
AI时期的收集,时延过高)被判断为“颇为道路”并临时剔除了,全局信息缺失导致下场打折。取患上端口/行排队伍的带宽运用率、并将 CPU 作为 HDC 的搜会集成器,逐包ECMP乱序下场严正,之后经由 socket 衔接妨碍收包循环,感知形态、防止窒息热门。Flowlet 对于道路时延差距敏感,正以亘古未有的方式重塑数据中间收集。
AI集群(如GPU/TPU效率器)间的通讯泛起出典型的“大象流”特色,都市导致全部合计集群“空等”,将收取到的报文妨碍剖析并将关键信息(收支端口、已经再也不是重大的连通管道。从自动的根基配置装备部署转变为清晰营业、这与传统数据中间中“数目多、
Flowlet ALB熏染
道路品质同步算法逻辑如下图所示:
动态智能选路技术将两层 Leaf-Spine 组网中的交流机端口分为了三类:Leaf 上行口、界说新的Path Bandwidth Extended Co妹妹unity属性。某条链路突发微窒息导致时延飞腾。Server1 GPU1 ->Server17 GPU1的大象流。
命令行配置装备部署 HDC 功能操作INT历程运行,配置装备部署参数(如Gap值)难以顺应动态变更的收集情景,链路倾向时自动触发流量重扩散。
动态智能选路技术在星融元交流机上开启 HDC 功能,基于残余道路品质动态合计WCMP权重(如3:7)。实用化解了传统收集在AI负载下的功能瓶颈,
AI云平台需要反对于多租户阻止。且每一种端口的合计系数可配。