资讯

推理时代性能瓶颈转移:从“算力”到“运力”。小批量、低精度、MoE的推理任务对计算本身要求不高,但在分布式部署下,多卡之间的通信延迟往往成为效率瓶颈。为此,行业正在把互联方式从机柜之间的Scale-Out网络转向机柜内部的Scale-Up网络(NVLink、UALink ...