NCCL支持RDMA。
理论上,从算法上gloo的没有道理比NCCL更好,因为gloo 至多也用ring allreduce。
实际上实现上,应该没有其它库超过NCCL,NCCL的实现充分利用了流水线来重叠传输和计算。