INTC的收购意图着眼在尚未见顶的本地集群高throughout计算市场(例如保持增长的training市场),那么100Gb会很快普及,使IDC内的算力节点实现高速扩展(芯片间高速互联,片上集成10个100Gb以太网端口,每端口都支持RoCE v2),所以AI系统通过标准以太网,在速度和端口数方面获得几乎无限扩展性,不受传统背板和插槽的瓶颈约束,适用于大规模神经网络模型训练任务;在这一领域处于顶峰的400G则是5G ISPs故事;
对于100G+以上的供需,Mellenox是一支独秀,这是TAM与客户集中度的问题;INTC舍弃100G+以上的roadmap,也是忌于$2B TAM并不可观,但这一市场直至5G商用普及必涨。
当然,某AI公司创始人也说过,INTC旨在希望将GPU和AI任务都融入到自身的指令集生态中,倘若INTC可以一起部署其CPU和GPU的话,服务器上就不必采购两家异构产品,开发效率提高很多。
国内华为从Mellenox引进硅光模块可以突破400G带宽(仅买模块,PCB设计甚至自主做,华为厉害)。
这个高门槛市场,NV是有体会的,其算力故事倘若没有Mellenox便会被堵死在INTC主板上,NV Link仅勉强解决同一主板PCIe槽口之间的高速,背板之间是他人的势力范围;
BTW: 对标的行业独秀Mellanox,国内没有3代以内,Barefoot也被INTC收购,其实自从Mellanox当年偶得INTC CPU micro code的秘密就性能飞升,随之送国内T1 CSP测试再折价20%+,短期争到mkt share进而做高了股价,再设计把NV榨干…(INTC出价$6.8B,犹太人泄露给NV,后者咬牙$6.9B,显然动用了分层的并购贷……
多说一句NV的布局,不仅是ML分布式训练,还有NV涉猎IDC HPC市场的决心。一旦Nvidia GPU+Mellanox网络技术的上下游生态绑定,那么在整合完之后就会诞生一个巨头,并大大提升竞争门槛。在收购完成之后,Nvidia GPU和Mellanox的以太网+RDMA就成为了一家人,其它AI芯片公司要加入竞争,则必然会在分布式计算方面遇到来自Nvidia更大的压力,这也意味着竞争门槛大大提高——例如,为了能真正进入分布式训练是一个必选项的云端AI芯片市场,则必须能自主掌握RDMA等分布式训练需要的数据交换技术,而能做到这一点的公司寥寥无几——一个例子就是上面说的Habana,其一大亮点就是其AI训练芯片中包含RDMA,这或许也是Intel之前高价收购Habana的重要考虑因素。