首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >硅光芯片的可靠性

硅光芯片的可靠性

作者头像
光学小豆芽
发布2025-12-17 14:01:24
发布2025-12-17 14:01:24
100
举报

伴随着AI cluster规模的不断扩大,集群的故障率也相应提高,光互连的可靠性变得愈发重要。以下图为例,当GPU数量从千卡扩展到十万卡,单个光学连接发生1小时故障带来的经济损失也增加了100倍。高可靠性的光互连为AI集群的维护带来了便利,也降低了使用成本。

(图片来自https://www.ciscolive.com/c/dam/r/ciscolive/emea/docs/2025/pdf/BRKOPT-2699.pdf)

对于基于硅光芯片的光互连可靠性,此前旭创在OCP峰会上展示过相关数据,如下图所示,从2022Q1开始,到2025Q3,累计的测试时间达到400亿小时,FIT值小于0.03,对应的MTBF为3.3e10小时,意味着每相隔约380万年才会出现一次故障。由此可见,硅光芯片在可靠性方面具有非常大的优势。

(图片来自https://drive.google.com/file/d/1MYG7HBVznDnbDtMkb1oSn3o1nq_TdGi9/view)

对于硅光芯片的可靠性测试,目前主要参考Telcordia GR-468中的相关要求,如下表所示。

常见的可靠性测试可以分为三大类,即老化测试(aging test)、加速腐蚀测试( accelerated corrosion test)和机械故障测试(mechanical failure test)。不同光器件发生相关可靠性问题的概率如下表所示,以下分别介绍相关的测试项,常用的测试指标包括器件的插损变化、电阻变化、暗电流变化等。

(表格来自文献1)

1. HTOL测试(high temperature operating life)

其测试目的是加速器件的电学老化,提前暴露潜在的失效机制,得出器件在常温下的工作寿命。其测试条件为在高温条件下(75-125℃),对有源器件施加偏压,测试时间一般为2000小时,对比调制器、PD、Heater等器件在HTOL前后的电学性能变化。如果测试时间为2000小时,温度为85℃,对应常温下的工作寿命约为10年。

2. Damp heat测试

该项测试也称为双85测试,测试时温度为85℃、湿度为85%,测试时长为500/1000小时,用于验证芯片在潮湿环境下长期工作的可靠性。在高温高湿下,水汽被吸收后,材料的折射率可能会发生变化,从而影响光学性能。测试时根据是否对有源器件施加偏压,可以进一步细分为biased/unbiased DH测试两种情况。Biased DH测试更接近真实工作环境。另外一种常见的高温高湿测试HAST(Highly Accelerated Stress Test),其测试温度为135℃,湿度为85%,测试时长一般为96h,通过更高的测试温度加速芯片的失效机制,进而检测芯片在高温高湿条件下的可靠性。

3. TC(temperature cycling)测试

TC测试也称为温循测试,测试环境温度在-40℃和85℃之间频繁切换,切换次数为500个周期。温度在高低温之间变化时,不同材料的热膨胀系数存在差异,带来应力的变化,进而导致光器件性能的劣化。

4. 高温/低温存储测试

高温存储测试(HTS, 即high temperature storage)与低温存储测试(LTS, 即low temperature storage),分别将芯片放置在150℃和-40℃条件下,观察芯片性能是否因为高低温发生劣化。HTS的测试时间一般为2000小时,而LTS的测试时间为168小时(一周)。

5. ESD测试

ESD测试主要目的验证有源光器件在封装、生产等过程中是否能承受静电放电冲击。比较容易ESD损坏的器件为探测器,HBM等级为100V。

对于上述的可靠性测试要求,Cisco从其硅光模块的量产经验出发,制定了从器件到系统不同层级的可靠性验证方案。

a. 光器件层面

在同一个硅光测试芯片上布置多个独立的有源光器件,并贴在一个测试PCB板上,构成一个test vehicle, 通过PCB板上的DC接口可对光器件供电,如下图所示。该test vehicle主要可以进行有源光器件的上电相关的可靠性测试。

(图片来自文献2)

b. Bare die级别

这一项测试时,将含有系统链路的光芯片贴在PCB上,并通过打线的方式与PCB板相连。PCB板上可以放置多颗待测芯片, 如下图所示。这一层级主要验证链路中使用的各个光器件的可靠性,测试项包括电阻、PD暗电流、调制器反偏电流等。

(图片来自文献2)

c. Chipset级别

相比于上一层级,这一层级将激光器组装到了芯片上。测试采用的装置和bare die测试场景使用的装置相同,只不过因为增加了激光器,测试项增加了激光器工作情况下的MPD电流,验证了整个链路的可靠性。这一层级,对于外置光源的方案,相关的检测得后置到封装完成后(SIP级别)。

d. Package级别

这一层级,电芯片与光芯片通过不同的封装方式集成在一起。封装相关的工艺一般发生在OSAT侧,主要验证不同封装方案相关的工艺可靠性,包括翘曲、应力、电学连接性等。其中不同材料CTE的失配,是很多问题的根因。

e. BEOL可靠性测试

Cisco将后端金属的可靠性单独作为一个检测项,这一部分的可靠性检测更应该发生在硅光流片厂。主要检测高温高压条件下后端金属的可靠性,观测其电阻、漏电流等是否因为电迁移、应力迁移等发生突变,引起失效。

光芯片组装成模块后,还需要考察模块整体的可靠性,进行GR-468所需的可靠性测试。这其中激光器的可靠性和光口处的可靠性需要重点关注。目前在硅光光模块中,主要采用端面耦合的方式,普遍采用实心光口的设计方案,避免使用折射率匹配胶,这主要也是从可靠性的角度出发,担心在高温高湿的条件下,部分水汽被吸收带来折射率的变化以及胶水粘弹性质(viscoelastic)发生变化,引起耦合损耗的变化。

可靠性直接关系到产品的良率和成本,是从研发走向量产必须要解决的问题。为了保障较高的可靠性,硅光芯片从晶圆加工到晶圆测试、封装、到最终组装成模块,每一个环节都需要严格把控,进行相关的可靠性验证测试。从设计角度,前期就需要根据产品使用场景引入DFQ(design for quality)和DFM(design for manufacturing)的设计理念,而不能只一味地追求性能,不考虑其可生产性。对于一些容易发生失效的光器件,需要重点关注并采取相应的措施。一个高可靠性的硅光芯片,将更能满足AI场景下高带宽、高密度的互联需求,并在AI浪潮中扮演更为重要的角色。

文章中如果有任何错误和不严谨之处,还望大家不吝指出,欢迎大家留言讨论。目前三个微信群都已经满员,小豆芽已经新开了微信讨论群4,有需要技术讨论或者商务咨询合作的朋友可以直接添加我的个人微信photon_walker。


参考文献

1. R. W. Herrick, "Reliability testing for silicon photonics and optoelectronics", in 2024 IEEE International Reliability Physics Symposium (IRPS), IEEE, 2024, pp. 1–10

2. A. Miele, Silicon Photonics Technology and PackagingReliability and Qualification Testing

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光学小豆芽 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档