Bob Neves和某编辑团队探讨论他发现用户正在做的可靠性测试和在实际使用中遇到的情况之间存在脱节,以及为什么现在的大部分可靠性测试都应该被视为耐用性测试。
Nolan Johnson:当前在组装可靠性方面有什么新发展?
Bob Neves:我过往的经历和关注的重点基本上都围绕电子产业中的PCB。我的客户基本上都属于微电子领域而且主要从事的是测试和评估,他们有的是PCB制造商的供应商,有的本身就是PCB制造商,还有PCB用户。我们谈到测试时,大多数购买PCB的人看待PCB就和看待电阻器或电容器一样,只是他们构建清单中的另一个元件。实事求是地说,你真不能把它当成一个元件,你必须把它当作一个非常复杂的子系统来对待,就像你购买电源或某些其他包含多个元件的组件时那样,同只能提供单一功能的电容器或电阻器相比,它能够为你做更多的事情。
在各个元件之间传送信号要依靠PCB,在不同的位置隔离信号也要通过PCB来实现。当一个电子组件出现问题时,你首先要关注的往往是这些区域。信号有没有到达正确的位置,或者在一些本该有信号的地方是不是没有信号?我经历过的很多信号传送问题都和在PCB上的互相连通或隔离工艺的一些问题有关。工程师对我说,“如果按住这个元件,就工作”,或者,“如果我用热空气枪加热它,我的系统就正常工作。但如果我把热空气枪拿开,它就不再工作了”。出现这种情况的很多故障最终都和PCB有关。
对于电子产品,在完成元件贴装工艺之后,产品的可靠性问题就开始出现。你把所有元件贴放到空白的电路板上,更改有问题的地方,对所做的更改进行测试,这件事一完成,就可以让电路板进入实际应用,这时,就要开始考虑可靠性。你正在做可靠性测试,不论是在空白PCB上、元件上或整个组件上,都需要进行某种方式的模拟来说明它已经完成了该元件的贴装,确保其在离开工厂之前是可靠的。在没有做可靠性测试之前,不是每个人都可以做到这一点,当一批元件送来时,很多人只是从中取出一个,并在这个元件进行测试,或会在元件贴装到PCB之前对PCB做电气测试,并且说, “一切都很好”。但是,你的目的是观察产品在测试中能够持续工作多长时间,不论你做的是哪种类型的测试,在测试前都需要做某些类型的焊接工艺模拟。这种模拟还必须包括元件贴装工艺的返工和维修零部件。
了解产品可靠性的代价之所以会非常高,是因为你必须先了解你的产品要用在什么地方,怎么用,以及将要在什么样的环境下使用。一旦你掌握了这些信息,你就必须找到一种办法在合理时间内对产品做加速老化测试。你不可能花10年的时间来看自己的产品是不是有10年的使用寿命吧。你必须找到某些办法来实现加速产品的寿命,而且你打算做的产品寿命加速测试和客户在与实际环境中要做的事必须一致。这需要做大量的研究,而且要单独研究各个属性对未来使用你的产品会有什么影响,以及如何在可控制的方式下加速研发,不增加或减少可能会导致产品失效的因素。无论是加速环境测试、机械加速测试,还是其他所有会对你的产品产生奇怪影响的测试,如何以某种方式加速这些因素,你通过测试结果可以直观地了解“实际应用场景”对产品的寿命的影响。
大多数人不会这么做。大部分人都愿意做更多耐用性类型的测试。他们做的一些事情比客户打算做的更糟糕。他们并没有真正了解产品在实际应用场景中的实际情况是什么,因此,在测试时他们会增加更多的加热、冷却、循环次数或振动来尝试对产品寿命的影响,对产品提出严格的要求。他们会做某些类型的加速测试,这些测试可能和产品的实际应用场景有关,也可能无关。我经常遇到这种情况。有人说,“我要做500-1000次这样的循环”。这让我想起上世纪七十年代和八十年代American Tourister和Samsonite公司的商业广告,在广告中他们让大猩猩拿旅行箱砸用来关它的笼子以证明箱子是坚固耐用的。大猩猩绕着这个笼子不停地砸。如果箱子没有破损开裂,就证明箱子是可靠的——这是真正的耐用性测试。
可惜的是,现在做的很多测试都是这种大猩猩式的耐用性测试。他们会说,“如果产品能够经受住‘大猩猩’测试的考验,那么它就能够满足客户的要求”。在不同的阶段,这都是一种态度,这种办法的成本一般都比较低而且也容易做到。人们对此有一定的信心。由于在测试中做的事情和用户实际应用场景中发生的情况之间出现脱节,这也是为什么现在的大部分“可靠性测试”都变成耐用性测试的原因。耐用性测试做起来简单、成本又低,或者,他们复制竞争对手做的事情或使用行业标准。但是,他们并不了解他们做的测试和他们的产品在实际应用场景中出现的情况之间有什么关系。
Matties:部分问题是他们要在什么条件下进行可靠性测试,例如,在生产原型产品时,但是大规模生产的成品率会有不一样的结果吗?你是怎样克服这个问题的?
Neves:假设是不论什么情况,你打算对你的产品做可靠性测试,而你正在制造的产品的变化不会出现太大的改变。这种情况在不同批次、不同运转和不同批量的PCB中很少发生,制造一块PCB需要经过几百个工序,这么多的工序可能会带来很多变化。
接受这一事实,可靠性测试就成为能力测试。“我有能力把产品做得可靠,但我不清楚随着时间的推移,在客户那里,我的产品是否会像我刚生产出来那样可靠”。我先做可靠性测试,然后说,“我有能力把产品做得可靠。在生产产品时,我需要监控所可能发生变化,确保它们的变化不影响我已建立起来的可靠性水平”。我要知道哪些变化会影响可靠性。我可以用最低标准,也可以用最高标准来执行某些可靠性测试,所以,我就能理解,“如果问题是出现在电路板上或元件上或焊点上,是如何偏离我的可靠性测试结果的”。
Matties:在通常情况下,产品可能是由不同的制造商进行预生产,而不是在他们最终进行批量生产的地方制造。
Neves:在今天的制造环境下,电路板上的每一个元件都是这样组装的:你拥有不同的制造商。你从不同的渠道购买不同的材料。你也会遇到和材料来源是否可靠相关的所有问题,要确保你获得的是自己真正想要的东西,而不是次品或仿制品。你要把重点放在得到你期望的产品上。然后,在加工产品时,或者从一家元件供应商换成另一家元件供应商时,通常会有变化。在您进行的第一次大型长期测试中,需要监控各种问题,以确保可靠性不会发生变化
Matties:你是不是一次又一次看到缺陷重复出现?
Neves:当你开始关注材料的变化时,就会发现,元件越复杂,元件失效的可能性就越大。在你观察电阻器或电容器时,就会发现,每个电阻器或电容器通常要经过不到50道工序就能得到成品。与制造PCB需要的许多工艺相比,由于这些元件本身没有太多可能出错的变量,它们的失效几率大幅度下降。对制造商而言,控制变量很容易,而且会有一套良好的质量体系在适当的位置非常好地监控那些工序比较少的生产制造,确保能够持续不断地制造出相同的产品。
现在来看变压器、PCB或其他部件,这些都是需要经过几百个工艺才能制造出来的产品,你的生产制造会出现这些工艺相互影响的问题,对于制造商,会很难搞清楚工艺发生变化的原因。变化通过工艺之间的相互影响自然而然地渗透到工艺中,并最终影响产品在实际使用中的可靠性。
Johnson:在前面说的测试准备中,你提到“焊接模拟”。什么是焊接模拟?
Neves:当我们开始把元件放到PCB的孔洞中时,一般会做浸焊测试。我们取一块代表PCB的样品,把它浸入一大罐焊锡中,把热量转移到PCB样品上,这些热量和在组装PCB时使用的全部热量相似,和你在波峰焊操作中看到的是一样的。目前,用来组装电路板的焊接技术主要包括对流空气回流焊和用于维修的手工焊接,或者一些其他不能用空气回流焊来处理的特殊焊接。在用户现场,至少在PCB方面,我们有各种各样的测试,让电路板通过模拟的回流工艺。用这些模拟尝试得到把各种元件多次放在最糟糕的情形下进行最长时间的暴露的电路板上相同的表面温度,用这种方法来掌握成品所能承受的极限。不过,有很多时候,你会回流焊电路板,然后,你再返工或维修电路板。模拟元件的贴装工艺通常是由四到六次苛刻的回流暴露组成。这在电子行业中非常常见。有的人会让电路板通过最糟糕的回流工艺四到六次。要了解在生产电路板时在回流工艺中可能出现的最极端的损坏,在进行可靠性测试之前,你要在预处理模拟中尝试对你的样品模拟同类损坏和压力。
由于成品需要在最糟糕的条件下使用,其所使用的元件需要多次尽可能长时间地暴露在高温下,因此,这些模拟尝试获得在此条件下与元件相同的电路板的表面温度。
这不仅适用于电路板的相互连通与隔离问题,也适用于对电路板的高频测试,因为材料经历元件焊接工艺后会改变它的电气特性。目前的大多数材料的玻璃转化温度(Tg)都比较高,可以进行无铅加工,但这些材料不是同质的材料,混合了各种不同的树脂和添加剂。即使你的材料的额定Tg是180°C,它也不是由Tg180°C的树脂系统组成。如果他们做出这样的材料,会很脆,容易开裂。你会遇到各种各样的其他问题。你有一种Tg是130-140s,或者160s树脂混合物,把它混合到这一神奇的树脂组中,就成为高Tg材料的树脂基质。元件焊接温度高,特别是无铅焊接温度,对材料基质中的低Tg树脂的影响相当大,可以改变PCB材料的介电常数(Dk)和消耗因子(Df)。在高温下反复暴露会改变树脂的基质。当树脂系统中的基质开始分解你的Dk和Df时,随着这种情况的出现,你的阻抗也会随之改变。
对于高频产品,因为元件贴装工艺会改变PCB中的层压树脂系统,从而影响高频测试的结果,所以重要的是在进行最终的高频测试之前,把材料暴露在任何你将应用的高温下。焊点本身是另一种非常复杂的过程,即在电路板板的表面和组件的表面之间建立连接,在防止氧化的同时,形成不同材料和不同表面涂层的金属间化合物。从整个工艺来看,有很多地方可能会出现失效。同样,从含铅焊锡到无铅焊锡,无铅焊锡实际机械属性没有像含铅焊锡那样令人满意。市场上有非常多各种不同的无铅组合,这有点像烤蛋糕,这个加点这种材料,那个加点那种材料。所有这些少量材料的含量只要1-2%就可以改善焊锡的晶体结构,这样,在形成焊点时焊锡内部就不会有太大的应力,而这些应力正是导致产品在现场出故障的原凶。
Johnson:我有软件背景,我想知道的是怎么建模的。这是物理实验室试验。
Neves:完全正确。在我们的实验室里,我们有一个有13区的水冷回流炉,我们可以用这个回流炉来运行电路板和样品,以及其他类型的东西。我们的工厂里有一台HATS2测试仪,可以在代替电路板的样品上进行回流模拟,同时在进行整个工艺期间进行电子测量,获得数据。当样品暴露在回流温度下时,你可以观察样品中通孔的电阻,检查通孔孔壁上的镀层在高温下是否会分离。很多时候,在材料冷却后再次收缩到正常尺寸时,您会重新建立牢固的电气连接。
如果电路板的通孔或微通孔的孔壁上的镀层因材料在高温下膨胀产生的应力分离,你可以看到在高温下电气断开。但是,当PCB在冷却过程中再次收缩时,你就会得到具有电气耐用的机械连接,在低温测试中,你可能再也看不到这种镀层分离。你只有在回流温度达到最高时才有机会看到这个问题,这时通孔因极度膨胀导致镀层在物理上分离。你开始看到这种情况更多出现在PCB做这些回流监控测试中,回流监控测试开始变成PCB的要求,人们需要做这种“电气监控”回流模拟。这些是在回流模拟期间做的电气测试,在此之后会做某些类型的热冲击计划,确保你能得到某些类型的热循环,说明做到实际使用的寿命加速。
Johnson:你能不能解释一下你之前说的“搞清楚可靠性的代价很高”的含义?
Neves:以汽车为例。我们在实验室里做了大量的汽车测试。大部分汽车客户需要面对五到六种不同的环境,他们的产品必须能够在这些环境中正常使用,例如一辆汽车。不同的环境包括汽车内部、在引擎上、在引擎舱内、传输传感器、刹车传感器等,即使他们都是在同一辆汽车里,他们所处的环境也非常不一样,承受的机械压力也不同。发生在你的传输传感器处理上的情况和空调电子设备或车内的立体声系统会有很大的不同。模拟最坏情况下的寿命并且在所有地方都使用这种模型(例如,耐用性)是比较容易的,但这意味着你要在不需要这种可靠性水平的零部件上花很多钱,这些零部件用在汽车的其他地方要达到预期寿命不需要那么高的可靠性。
如果我为汽车购买的刹车系统的零部件是在200°C下做的认证,用他们来做出来的立体声音响系统就会非常昂贵。在汽车里的所有位置都采用这种零部件,从经济上讲,是没有意义的。要有成本意识,正确地了解在汽车里的不同的位置各自需要什么样的可靠性水平。这将限制产品投入实际使用时的成本。汽车制造企业已经花费大量的时间和金钱建立不同的环境的模型,目的是搞清楚在汽车几十年的生命周期里,他们必须保证哪些零部件始终能够可靠地工作。他们采用这种模型,把测试几十年的环境变化的影响压缩成30-45天的对等测试,就可以说,“我知道,如果我采用这个模型,我是在数据上做到Weibull关联,我从数据中拿出一个或两个十年的数据来验证我的产品能够在实际环境中工作多长的时间。如果它能够经受这种模拟加速测试,我就知道这个产品在实际使用中也能运行十年或二十年”。
他们已经在汽车上各个不同环境操作区域内都做了这项测试。当你将某个产品限定在汽车中的某个区域时,会有一组与这个区域相关的特定可靠性要求,具体要取决于最终的使用环境。零部件需要承受一定数量的循环和特定温度或环境类型的考验。为了解一整部汽车所有不同的操作环境,他们努力了解实际应用情况并建立用于加速测试环境的模型。他们花了很多年才做出这些加速模型。因为这些模型是用多年时间花了数百万美元才建立起来的,这是非常重要的资产。像特斯拉这样的新兴公司,他们的方法并不是直接从其他的制造商或一级供应商发展而来。他们没有采用多数知名汽车制造商所使用的采购模式——从一级供应商那里购买零部件。这些一级供应商在汽车领域拥有几十年的经验,鉴于他们最终要为可靠性提供财务上的担保责任,因此他们在建模方面做了大量的工作。
汽车市场的后来者决定从零开始,建立自己的供应链。因为他们必须从头开始,就像是这个领域的新生儿,要花比较多的时间来了解长期可靠性的要求。他们都是规模比较大的企业,因此,他们有能力多花大量的金钱和精力来做这件事。但如果你只是一家小型制造商,你可能就没有必要花时间或金钱针对可靠性建立模型。当今的市场在不断变化之中,很难说出“我必须为此建立模型”的话,并为了掌握它的可靠性,把所有的钱和时间都搭进去。你最终会从别人那里抄一些东西过来,或者说,“这是我的对手竞争在用的”,或者是,“让我们做个大猩猩测试吧。如果它能通过测试,就足够了”。很多人都绕开可靠性,他们说,“我不打算花时间了。我不打算做可靠性测试。我要做耐用性测试,在我看来,它就是可靠性测试”。“如果它足够耐用,能够承受这种特殊的考验,那么我就能用……”这也许是真的。情况很可能就是这样。但是,人都有保护错误的倾向。如果你正在做耐用性测试,那么你最终在供应链上花的钱可能会比实际需要的钱更多。由于过度工程化的要求,结果你的产品可能因测试而变得更昂贵,同时也导致其在市场上的竞争力大打折扣。
Johnson:规模比较小的制造商应该采用哪种办法来解决这个问题?其中的一种办法是用耐用性来取代可靠性?
Neves:耐用性测试是大多数人最终要做的事情。他们把这些事情称为可靠性测试。人们误以为这是正在进行的长期可靠性测试。但实际上,他们在做的是耐用性测试。他们不了解他们正在做的测试和他们的产品在实际场景中发生的事情之间有什么联系,这是真的。他们设置了一个门槛。现在,至少在PCB方面是这样做的,人们会说,“我们必须为焊接做回流预处理。为什么不在回流预处理的基础上做些扩展呢?从回流5次扩展到回流10次。如果它能经受10次回流的考验,在我们的环境中就没问题”。因为你有太多额外的加速因素,所以你在做的事情和在现场中发生的事情出现脱节。这些额外的因素没有什么意义。如果你没有通过耐用性测试,不一定意味着你的产品在特定环境中是不可靠的。它可能对可靠性有意义,但也可能没有意义。现在有很多产品被放弃,是因为这些产品没有通过耐用性测试,但这些产品在预定的使用环境中可能是很可靠的产品。长期以来,我们一直将外观丑陋和不可靠联系在一起。我们做大量的目视检查,例如评估横切面或查看焊点。如果它很难看,我们就把它丢弃。我们认为外观丑陋就不可靠,但事实并非如此。外观丑陋的东西可能是可靠的。
Johnson:我们会做一些令人生厌的测试,它不一定能够说明产品的可靠性,但还是经常会使用这种测试。因此我们也做耐用性测试,这些测试说明不了可靠性,但还是会经常用到。还有其他哪些测试被伪装成可靠性测试?
Neves:那些“令人生厌的”测试做起来简单,成本相对也不高。这也是为什么采用这些测试的原因。找一个检查员来检查物理缺陷是很容易的事情。进行多个焊接热循环来暴露电路板的问题也很容易。如果你打算做30天、40天、60天或90天的长期测试就没有那么容易,并且代价也很昂贵。最困难的是真正弄清楚你的产品要用在哪些地方以及它与加速测试有多少联系。这才是最困难的事情。如果人们花时间真正了解这个问题,并且把问题真正搞清楚,朝着真正的可靠性方向努力,事情就会简单许多;但没有多少人重视这一点。大家关注的是盒子外面的性能,确保在客户要打开盒子时,他就可以把盒子打开。
手机公司在这方面就做得非常好。因为手机厂商认为手机的生命周期到不了五年,所以我的实验室看不到手机厂商遇到可靠性方面的问题。他们没有必要让自己的产品运行过长的时间。手机厂商希望你一年就换一部新手机。正因为手机厂商对自己的产品在实际使用中的生命周期的预期非常短,而且他们只需要考虑产品在非常短的质保期内不出问题就可以了,所以他们真的不需要做可靠性测试。他们不会花大量的金钱或时间去做可靠性测试。他们唯一关心的是在生产时要尽可能地降低成本。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。