刚好最近在做这个方向,Intel的硅光芯片可以从两个形态来谈谈:一则是数据中心的计算背板间的光互联,用Ayar Labs的TeraPHY外接光电收发器;一则是CMOS硅光器件,用于片上/片间计算的PHY高速互联;
————————————————————
先看看CMOS硅光 - 用于die上/die间计算的高速互联:
这是Intel Lab在2020年2月放的卫星,值得关注的是CMOS硅光器件:一则是1.3-1.6um光子探测器,材料物理突破;二则是那个Micro-ring modulators/modems模拟电路设计的突破,对比传统硅基modulators占用较多面积(以及IC封装很昂贵),这个“微环”意义就是器件缩小了1000倍+,也排除了把silicon photonics集成到封装的很多障碍(几年前UC-Berkeley制备过25μm2的EA调制器)。
谈到PHY层的幺蛾子,国内仍旧难突破,即便是电子PHY,拿信号分析/校验为例,30GHz+的信号分析仪(示波器)是管制的,它最多做到10G SerDes,只能做等效PCIe Gen 3, 8Gbps(国内PCIe Gen4普遍用SNPS IP咯);还有一个窘境是很多连眼图分析软件也搞不到,观察码间串扰/噪声靠人眼…要看瞎掉了…,这些短板就限制了自研的高速互联PHY,设想on die 500MHz以上,一堆核心在大位宽(128)上并行吞吐,Signal integirty问题大到不可想象,这些都要在模拟层解决了。
另外为什么是CMOS器件?我想是用CMOS实现是一方面正好突出硅光器件用传统半导体的兼容工艺制备;以及CMOS才能大比例缩放,缩放弹性就丰富了应用场景,技术上CMOS实现的光器件也最尖端,几年前Luxtera公司的光电混载收发器IC就是以130nm工艺的CMOS制造的。
这里还有个更早一些的光版CMOS成果,也是外置激光器和导波器件一起fabric粘到芯片上,如下:
——————————————————
再看看Ayar Labs的外接光电收发器方案TeraPHY - 用于板卡间/背板间的跨PCB高速互联:
通常硅光计算是指die上计算概念,而上面这个TeraPHY是一个通信模组;模组对外用FC光缆连接,模块间还是电子,FPGA逻辑之间还是电子。图1放了个FPGA die,应用场景之一像是用于5G运营商那些应用(电信级的基站模块或是光网交换)速度/散热都会提高,价格不会亲民的。
TeraPHY的封装是把FC转接头封装在一起,这个PHY就是一个光电转换模块。工程效果就是:FC直连板块,相比传统做法,不是在背板上连FC,避免了转换后的电子信号先走底板再接到FPGA加速卡,这就是基站或光分组交换级别的accelerator模组,运算依然靠中间的FPGA;换个角度,这就是外部的公网FC接机箱背板,背板引一排FC到这张加速卡的FC端子,PCB就绕开了,去掉PCB,保持了高速,还节约了成本(40G以上的电缆数据线可是3M专利…100美元一根),但主要还是避开motherboard的大坑(性能瓶颈/高速PCB走线复杂度和散热),可以理解这就是硅光通信模块的小型化紧凑封装。
至于图2为什么画上了CPU,显然是Ayar显摆能异构整合高带宽模块的能力,但是,CPU最多64bit bus,FC直连没有意义,高/低速电路都有不同的用途。虽然GPU才有512-1024 bit大位宽,但也是刷存在感,谁家会拿出GPU裸die给别家去封装呢?倘若有人猜是AMD GPU,那么AMD又没有FPGA,而EMIB又是Intel专利,不可能相互交换裸die的;真要封装GPU进去,全球不会超过5个客户(超规模的超算场景),所以猜是个定制化封装,不是标准化商业产品。
在上述两个图里,FC to package,不需要关心package里面是什么,反正CPU没有意义。图2看起来是for cloud,但这个量级的,只能是GOG/MSFT/AWS堆砌TPU-3/4那种超算力的云中心;纵使超算要求高速大位宽,但PCB走线是疯狂的,SI硅是极度挑战,且PCB是铜线,走40Gb带宽是不可能达到的,功耗散热也巨大,这就成为Ayar teraPHY的卖点:FC的吞吐可以看到400G以上(PCIe 5还没有到100G吧)。中间差一档fabric,降两次维度的打击。(BTW:Mellanox卖的是背板FC相连的通信模组,400G,华为也买这个)
这个PHY的应用场景,能立刻看出来的就两个:要么是配FPGA做5G基站模块或核心的光网交换机,出货量确有规模;要么是那种暴力堆砌GPU的超算集群(有矩阵暴算需求的超算中心),全球客户仅几个。但是,5G基站/光网交换都不是AMD和NV的地盘,AMD刚刚在想怎么挤进入,NV就买了Mellanox,都在服务器上motherboard上被掐死的。
另外,当时有人讨论过PCIE、fabric都由teraPHY来替代,这是不现实的,异构处理器之间是fabric,还是电子的,不会再搞个双向光电转换;PCIe更加面向处理器低速低带宽的外设,现在的ARM服务器芯片设计就是用PCIe统一一切外设了,不会再用专用的控制电路连接五花八门的低速电路了。其实,AMD现在的chiplets就已经很典型了,可找一张AMD CPU最近的block diagram,看看中间那个14nm的I/O控制器。
以及,讨论“基于这个teraPHY路线打破各传统大厂的fabric/PCIe IP墙”是不可能的,替代fabric不可能,芯片设计的拓扑不可能让外界触碰到,fabric在封装里面跟芯片上的NOC要对接的,不能光电来回转换,并且这个光电转换模块也是“微缩”不下去的(或是SmartNiC可以使用黑硅材料减小面积?),teraPHY只能是板卡直连back panel,跳过了motherboard,如上拿AMD CPU最近的block diagram看一眼就了然了。
以及,讨论“Serdes替代”是不可能,Ayar与高速Serdes无关,serdes还是die上和封装里面的事情,NVlink也并不是在封装之间。诸如:NVLink、AMD fabric、Intel的CTL,都是扩展到PCB上的。AMD现在的封装都是用自己的fabric互联嘛。未来都需要解决PCIe 5-6的兼容性。前面也说过,高速大位宽,PCB走线是疯狂的,SI硅是极度挑战,且PCB是铜线走40Gb带宽是不可能达到的,功耗散热也巨大。
最后,Ayar Labs是Intel Cap的portfolio,惯例上大概率与Habana一样,过1-2年就会被收购。虽然,在FPGA/GPU/NPU die上面直接集成FC连接是teraPHY的卖点,但问题是Foundry和ATM(封装测试厂)自有的技术体系如何整合呢?Ayar只能站队一个IDM大厂,并且当下Ayar已经站队INTC和GF了,台积电/三星就不会采纳了。