百科问答小站 logo
百科问答小站 font logo



如何评价 Intel 首次推出的应用于数据中心的高速硅光子芯片? 第1页

  

user avatar   zhangshujia 网友的相关建议: 
      

刚好最近在做这个方向,Intel的硅光芯片可以从两个形态来谈谈:一则是数据中心的计算背板间的光互联,用Ayar Labs的TeraPHY外接光电收发器;一则是CMOS硅光器件,用于片上/片间计算的PHY高速互联;

————————————————————
先看看CMOS硅光 - 用于die上/die间计算的高速互联:

这是Intel Lab在2020年2月放的卫星,值得关注的是CMOS硅光器件:一则是1.3-1.6um光子探测器,材料物理突破;二则是那个Micro-ring modulators/modems模拟电路设计的突破,对比传统硅基modulators占用较多面积(以及IC封装很昂贵),这个“微环”意义就是器件缩小了1000倍+,也排除了把silicon photonics集成到封装的很多障碍(几年前UC-Berkeley制备过25μm2的EA调制器)。

谈到PHY层的幺蛾子,国内仍旧难突破,即便是电子PHY,拿信号分析/校验为例,30GHz+的信号分析仪(示波器)是管制的,它最多做到10G SerDes,只能做等效PCIe Gen 3, 8Gbps(国内PCIe Gen4普遍用SNPS IP咯);还有一个窘境是很多连眼图分析软件也搞不到,观察码间串扰/噪声靠人眼…要看瞎掉了…,这些短板就限制了自研的高速互联PHY,设想on die 500MHz以上,一堆核心在大位宽(128)上并行吞吐,Signal integirty问题大到不可想象,这些都要在模拟层解决了。

另外为什么是CMOS器件?我想是用CMOS实现是一方面正好突出硅光器件用传统半导体的兼容工艺制备;以及CMOS才能大比例缩放,缩放弹性就丰富了应用场景,技术上CMOS实现的光器件也最尖端,几年前Luxtera公司的光电混载收发器IC就是以130nm工艺的CMOS制造的。

这里还有个更早一些的光版CMOS成果,也是外置激光器和导波器件一起fabric粘到芯片上,如下:

——————————————————

再看看Ayar Labs的外接光电收发器方案TeraPHY - 用于板卡间/背板间的跨PCB高速互联:



通常硅光计算是指die上计算概念,而上面这个TeraPHY是一个通信模组;模组对外用FC光缆连接,模块间还是电子,FPGA逻辑之间还是电子。图1放了个FPGA die,应用场景之一像是用于5G运营商那些应用(电信级的基站模块或是光网交换)速度/散热都会提高,价格不会亲民的。

TeraPHY的封装是把FC转接头封装在一起,这个PHY就是一个光电转换模块。工程效果就是:FC直连板块,相比传统做法,不是在背板上连FC,避免了转换后的电子信号先走底板再接到FPGA加速卡,这就是基站或光分组交换级别的accelerator模组,运算依然靠中间的FPGA;换个角度,这就是外部的公网FC接机箱背板,背板引一排FC到这张加速卡的FC端子,PCB就绕开了,去掉PCB,保持了高速,还节约了成本(40G以上的电缆数据线可是3M专利…100美元一根),但主要还是避开motherboard的大坑(性能瓶颈/高速PCB走线复杂度和散热),可以理解这就是硅光通信模块的小型化紧凑封装。

至于图2为什么画上了CPU,显然是Ayar显摆能异构整合高带宽模块的能力,但是,CPU最多64bit bus,FC直连没有意义,高/低速电路都有不同的用途。虽然GPU才有512-1024 bit大位宽,但也是刷存在感,谁家会拿出GPU裸die给别家去封装呢?倘若有人猜是AMD GPU,那么AMD又没有FPGA,而EMIB又是Intel专利,不可能相互交换裸die的;真要封装GPU进去,全球不会超过5个客户(超规模的超算场景),所以猜是个定制化封装,不是标准化商业产品。

在上述两个图里,FC to package,不需要关心package里面是什么,反正CPU没有意义。图2看起来是for cloud,但这个量级的,只能是GOG/MSFT/AWS堆砌TPU-3/4那种超算力的云中心;纵使超算要求高速大位宽,但PCB走线是疯狂的,SI硅是极度挑战,且PCB是铜线,走40Gb带宽是不可能达到的,功耗散热也巨大,这就成为Ayar teraPHY的卖点:FC的吞吐可以看到400G以上(PCIe 5还没有到100G吧)。中间差一档fabric,降两次维度的打击。(BTW:Mellanox卖的是背板FC相连的通信模组,400G,华为也买这个)

这个PHY的应用场景,能立刻看出来的就两个:要么是配FPGA做5G基站模块或核心的光网交换机,出货量确有规模;要么是那种暴力堆砌GPU的超算集群(有矩阵暴算需求的超算中心),全球客户仅几个。但是,5G基站/光网交换都不是AMD和NV的地盘,AMD刚刚在想怎么挤进入,NV就买了Mellanox,都在服务器上motherboard上被掐死的。

另外,当时有人讨论过PCIE、fabric都由teraPHY来替代,这是不现实的,异构处理器之间是fabric,还是电子的,不会再搞个双向光电转换;PCIe更加面向处理器低速低带宽的外设,现在的ARM服务器芯片设计就是用PCIe统一一切外设了,不会再用专用的控制电路连接五花八门的低速电路了。其实,AMD现在的chiplets就已经很典型了,可找一张AMD CPU最近的block diagram,看看中间那个14nm的I/O控制器。

以及,讨论“基于这个teraPHY路线打破各传统大厂的fabric/PCIe IP墙”是不可能的,替代fabric不可能,芯片设计的拓扑不可能让外界触碰到,fabric在封装里面跟芯片上的NOC要对接的,不能光电来回转换,并且这个光电转换模块也是“微缩”不下去的(或是SmartNiC可以使用黑硅材料减小面积?),teraPHY只能是板卡直连back panel,跳过了motherboard,如上拿AMD CPU最近的block diagram看一眼就了然了。

以及,讨论“Serdes替代”是不可能,Ayar与高速Serdes无关,serdes还是die上和封装里面的事情,NVlink也并不是在封装之间。诸如:NVLink、AMD fabric、Intel的CTL,都是扩展到PCB上的。AMD现在的封装都是用自己的fabric互联嘛。未来都需要解决PCIe 5-6的兼容性。前面也说过,高速大位宽,PCB走线是疯狂的,SI硅是极度挑战,且PCB是铜线走40Gb带宽是不可能达到的,功耗散热也巨大。

最后,Ayar Labs是Intel Cap的portfolio,惯例上大概率与Habana一样,过1-2年就会被收购。虽然,在FPGA/GPU/NPU die上面直接集成FC连接是teraPHY的卖点,但问题是Foundry和ATM(封装测试厂)自有的技术体系如何整合呢?Ayar只能站队一个IDM大厂,并且当下Ayar已经站队INTC和GF了,台积电/三星就不会采纳了。




  

相关话题

  阿里平头哥在云栖大会发布了第一颗通用芯片「倚天 710」,如何看待中国企业在研发芯片领域的努力? 
  英特尔发布声明「暂停在俄罗斯所有业务」,会带来哪些连锁反应?对于行业和英特尔而言意味着什么? 
  为什么芯片级别多是7、14、28这样7的倍数,有什么技术原因么? 
  如何看待中科院8英寸石墨烯晶圆问世?石墨烯芯片还要等多久?石墨烯会让光刻机退出世界舞台吗? 
  如何评价英特尔第三季度利润同比下降近 30%,有哪些因素导致下滑? 
  美国批准拨款 520 亿美元促进美国芯片的制造研究,将会带来哪些影响? 
  在华为做芯片是一种什么体验? 
  最近很多文章分享「英媒称:如果中国克服了芯片问题,那么芯片将一文不值」,如何看待这一说法? 
  如何评价苹果发布 M1 Pro 和 M1 Max 芯片,相比 M1 有哪些提升,有哪些亮点和不足? 
  人类历史上第一个集成电路使用什么仪器制作的? 

前一个讨论
ARM的架构授权和ip core授权方式各有什么不同?拿到后能做哪方面的修改?
下一个讨论
2021年第一天,如何看待依图科技CTO颜水成博士离职?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利