無論您的終端應(yīng)用是什么,可靠性都將是設(shè)計的主要考慮因素之一。實現(xiàn)可靠性的方法多種多樣。 作者:Adam P. Taylor,e2v公司系統(tǒng)工程主管 aptaylor@theiet.org 在考慮設(shè)計可靠性時,大部分工程師都將注意力集中在一個綜合性度量標準:平均故障間隔時間。事實上,平均故障間隔時間(MTBF)是評估設(shè)計可靠性重要參數(shù)之一。但是另一個參數(shù)“成功概率”,也同樣重要。因此為了最終推出可靠的設(shè)計方案,設(shè)計人員應(yīng)該充分考慮其它因素并確保進行準確的可靠性分析。 無論您設(shè)計哪種產(chǎn)品,可靠性都是必不可少的,盡管原因不盡相同,但都取決于終端應(yīng)用。航空航天與軍事設(shè)計人員必須確保操作員/乘客的安全,確保成功完成任務(wù)。在電信領(lǐng)域,實現(xiàn)可靠性的目的則是防止出現(xiàn)服務(wù)中斷的情況,因為這樣會影響收入流與聲譽。工業(yè)和流程控制工程師的任務(wù)就是盡可能縮短停機時間,在故障發(fā)生時,能夠確保安全、無故障運行。對于商業(yè)應(yīng)用,設(shè)計人員必須確保其產(chǎn)品在規(guī)定的質(zhì)保期內(nèi)不會出現(xiàn)任何問題。 使用FPGA可以研發(fā)出集成度更高的解決方案,從而可以延長系統(tǒng)的平均故障間隔時間。當器件制造商定期提供季度可靠性報告時,這一點更為明顯,賽靈思就是如此做的,其出版的季度可靠性報告名為《UG116》。 從最高層次來說,可從兩個角度來考慮可靠性。第一,系統(tǒng)在規(guī)定使用壽命內(nèi)順利運行的可信度。這一點可以采用MTBF、成功概率以及熟悉的浴盆曲線。第二,發(fā)生錯誤事件時,如何確保您的設(shè)計可以繼續(xù)工作并保持無故障運行,或者針對尚未解決的問題出具報告。我們工程師開展設(shè)計與分析的方法可以影響到可靠性的上述兩個方面。 為了確保解決方案的可靠性,您的開發(fā)環(huán)境必須建立正確的工程設(shè)計治理制度,設(shè)置審查關(guān)口、設(shè)計規(guī)則與指南,同時在生命周期內(nèi),應(yīng)該安排同行在適當?shù)狞c進行獨立審核。 MTBF與浴盆曲線 MTBF的定義是從統(tǒng)計學(xué)角度預(yù)測系統(tǒng)運行過程中的故障間隔時間。制造商取各個組件的故障率倒數(shù)計算MTBF。我們一般將這些故障率稱為FIT率,其中,故障時間(FIT)為1e-9小時-1。您既可向組件供應(yīng)商索取故障率,亦可根據(jù)軍用手冊MIL-HDBK-217F或Bell-core/Telcordia SR332標準計算。MTBF與FIT率之間的關(guān)系如下所示: ![]() 但是,上述故障率僅對浴盆曲線中的恒定故障率周期有效,如圖1所示。 浴盆曲線描繪的是產(chǎn)品引入時的早期(“早期故障期”)故障、正常使用壽命內(nèi)發(fā)生的故障(“恒定故障率”)以及產(chǎn)品設(shè)計壽命結(jié)束時的故障。因此,生產(chǎn)過程中,通常會進行某種形式的“老化試驗”,排除早期故障期故障。老化試驗過程中,在各種溫度作用下,器件潛在缺陷會加快發(fā)生,這樣便可以確保器件在交付、裝入系統(tǒng)之前失效。 您可以通過韋伯分布、或壽命數(shù)據(jù)與分析來確定您的產(chǎn)品或系統(tǒng)在浴盆內(nèi)的位置,利用Excel很容易完成。形狀參數(shù)β表明故障率是穩(wěn)定、增加還是減少。若形狀參數(shù)(β)小于1.0,則表明早期故障期內(nèi),故障率在下降,若形狀參數(shù)大于1.0,則表明故障率在上升,而此現(xiàn)象會在磨損階段出現(xiàn)。 為了確保成功概率合格,許多產(chǎn)品都要求MTBF必須遠遠高于預(yù)期使用壽命。 確定您在浴盆曲線中的位置后,如果您認為系統(tǒng)至少在MTBF期間可以繼續(xù)無故障運行,那也是情有可原的。然而情況并非如此。MTBF是從統(tǒng)計學(xué)角度描述產(chǎn)品在使用壽命內(nèi)可能出現(xiàn)的故障率;并非指產(chǎn)品的預(yù)期使用壽命。如果想要獲得產(chǎn)品的預(yù)期使用壽命,我們需要考慮通過以下公式所求得的成功概率,其中t表示預(yù)期工作時間(單位:小時)。 ![]() 將成功概率繪制成圖之后,可以看到,當預(yù)期工作時間接近MTBF時,成功概率為0.37左右,如圖2所示。這意味著成功概率這一單個模塊在MTBF達到0.37所消耗的時間之后,仍然有效。如果考慮到一批器件,則其中的37%仍然正常工作。 因此,為了確保工作壽命內(nèi)成功概率合格,許多系統(tǒng)/產(chǎn)品都要求MTBF必須遠遠高于預(yù)期使用壽命。例如,假設(shè)使用壽命為五年,成功概率為0.99,則產(chǎn)品所要求的MTBF必須達到4,361,048小時或497年,如以下公式所示。 ![]() 顯而易見,這遠遠超過了使用壽命。 可靠性計算 您可以采用以下方法之一計算可靠性與MTBF——零件計數(shù)分析或零件應(yīng)力分析。其中零件計數(shù)分析比較簡單,有時候可以在開發(fā)周期早期進行,作為產(chǎn)品是否達到可靠性要求的指標之一。此類分析考慮到了零件質(zhì)量水平、數(shù)量以及使用環(huán)境。零件計數(shù)分析可以快速進行。但是,結(jié)果趨向于保守,導(dǎo)致故障率上升,MTBF縮短。 ![]() 圖1 - 浴盆曲線追蹤產(chǎn)品引入時的早期(“早期故障期”)故障、使用壽命內(nèi)所出現(xiàn)的故障以及壽命結(jié)束后的“磨損”故障。 ![]() 圖2 - 當預(yù)期工作時間接近MTBF時,成功概率為0.37。 零件應(yīng)力分析將會考慮到更多參數(shù),因此所需時間更長,但是此類分析的結(jié)果更加準確。應(yīng)力分析需要考慮到溫度、電應(yīng)力、質(zhì)量、結(jié)構(gòu)、工作環(huán)境等許多因素,具體取決于您所分析的組件種類。對于當前應(yīng)用而言,此類分析所獲得的故障率要準確得多。 提高可靠性 有許多方法和技術(shù)可用于幫助延長MTBF,進而提高您系統(tǒng)或產(chǎn)品的成功概率。最常用的方法是降低組件所承受的額定電應(yīng)力與熱應(yīng)力。通過如此降額,在進行上述零件應(yīng)力分析時,您可將器件應(yīng)力考慮在內(nèi)。各個公司通常都會制定自己的降額規(guī)則。但是,如果沒有內(nèi)部規(guī)則,則您可以參考業(yè)界標準規(guī)則,例如歐洲空間局的ECSS-Q-30-11A與美國海軍的NAVSEA TE000-AB-GTP-010。 雖然零件應(yīng)力分析會增加非經(jīng)常性工程成本,但是對于工程團隊而言,還有許多其它選項,這些選項均會影響到經(jīng)常性成本。 第一個選項便是提升組件質(zhì)量,同時應(yīng)用類似的降額規(guī)則。這可能意味著,從標準商業(yè)零件到高質(zhì)量的軍用(通過QML Q認證的IC)乃至航空(通過QML V認證的IC)組件全面提升質(zhì)量。然而值得注意的是,隨著組件質(zhì)量水平的提升,其價格亦會隨之提升。表1顯示了集成電路、混合件以及分立件所需的各種不同標準。 第二個選項便是引入冗余,無論是模塊間的還是模塊內(nèi)的。冗余可增加尺寸、重量以及解決方案的成本,但其所帶來的后果是對系統(tǒng)可靠性造成顯著影響,進而影響系統(tǒng)可用性。通常最好的做法便是在系統(tǒng)層面做出冗余決策,在系統(tǒng)中故障率較高位置安裝額外組件。此種方法是專門針對冗余而開發(fā)的最佳解決方案。 在考慮冗余時,您可以選擇熱冗余或冷冗余。對于“熱”冗余解決方案,冗余系統(tǒng)采用電動,其配置可以通過無縫切換替換失效模塊,不會對系統(tǒng)性能產(chǎn)生任何影響。缺點在于此種情況下,冗余設(shè)備會承受應(yīng)力。 表1 - IC、混合件與分立件的標準版、軍用版與航空版 ![]() 表2 - 狀況監(jiān)控詳情表 ![]() 在“冷”冗余方案中,冗余系統(tǒng)通常不采用電動,只有在主模塊失效之后,才會重新啟動。系統(tǒng)會終止活動,直到對冗余端進行重新配置,非失效模塊才會繼續(xù)工作。雖然工作會中斷,但是優(yōu)點在于冷冗余解決方案不會老化,因為冷冗余不采用電動,不會承受電應(yīng)力。 引入冗余之后,您必須注意確保故障不會擴散,因為在主模塊側(cè)失效的時候,如果故障擴散,則就會影響到冗余模塊的性能。 系統(tǒng)級考慮事項 考慮了零件質(zhì)量以及冗余對系統(tǒng)造成的重大影響之后,您還可以執(zhí)行其它選項,以確保發(fā)生錯誤或故障事件時系統(tǒng)性能正常。這些選項包括: • 危險故障擴散模式 • 內(nèi)置測試、遙測以及事件日志,用于監(jiān)控和記錄系統(tǒng)健康狀況 • 設(shè)備接口,無論是單一連接器還是主模塊與冗余 • 關(guān)鍵命令順序(例如,分離系統(tǒng)“手臂”與“消防”命令) • 內(nèi)存與數(shù)據(jù)鏈路錯誤率(BER、ECC)可接受 作為監(jiān)管或認證標準的一部分,您必須進行危險性分析,以確定設(shè)備發(fā)生故障時可能出現(xiàn)的潛在危險。因此,您需要負責(zé)確保系統(tǒng)級的設(shè)計能夠采取適當措施,通過聯(lián)鎖裝置等避免上述危險發(fā)生。如有必要,您應(yīng)該將這些減緩措施作為規(guī)定要求應(yīng)用到各個子系統(tǒng),以便確保這些故障模式均得到正確處理。 了解設(shè)備健康狀態(tài),然后上報或記錄,您可以通過此方式進行預(yù)測,確保運行不會受到故障的影響,確定設(shè)備故障原因,有利于對其進行維修。更多的復(fù)雜系統(tǒng)可能包括全面的自測功能,通電之后或者運行期間可以連續(xù)運行此功能。表2顯示了更加詳細的您可能考慮監(jiān)控的需求中斷測試。 上述結(jié)果可以通過通信鏈路以健康狀態(tài)的形式進行傳送,保存在非易失性存儲器之中,例如,flash或FRAM或二者同時使用。通常情況下,您可能會選擇采用實時時鐘或越時計數(shù)器(elapsed-time counter),對這些事件逐一標記時間,以便形成參考系。 在惡劣環(huán)境下,工程師所面臨的另一個問題是連接器。連接器是故障多發(fā)位置,因為里面的單獨電纜可能會斷開,或者連接器本身會因振動或震動等環(huán)境影響而掉落。因此,您可以通過裝入冗余連接器和電纜來增加可靠性。第一個連接器發(fā)生故障后,冗余連接器可以接管通信,如圖3所示。但是,這種冗余的代價是增加了復(fù)雜性,尤其是當您需要連接大量模塊時。一種替代方案就是采用專門針對惡劣環(huán)境設(shè)計的連接器,例如MIL-STD 38999系列連接器。 ![]() 圖3 - 如果原始連接器出現(xiàn)故障的話,冗余連接器將接管工作,但代價是增加了復(fù)雜性。 若系統(tǒng)或產(chǎn)品將用于惡劣環(huán)境,例如,電氣噪音比較大,則系統(tǒng)內(nèi)部總線所傳送的命令考慮采用手臂/消防方案是比較明智的。在上述方案中(參見圖4),初始命令被傳送至接收器,然后接收器確認命令,并啟動超時。如果接收器無法接收消防命令,則會發(fā)出不予確認字符(NACK)命令,作為響應(yīng),接收器在啟動超時之前會發(fā)出確認字符(ACK)命令。類似的,如果接收器接收到其它命令,則其會發(fā)送NACK命令,并重新開始處理。此方案可確保,其中一個命令因電磁干擾(EMI)而被中斷時,不會無意中產(chǎn)生關(guān)鍵命令。 ![]() 圖4 - 對于電氣噪音比較大的環(huán)境,“手臂消防”順序有助于降噪。 此外,您還可以采用與手臂消防方法相類似的方法,確保所有通信鏈路和內(nèi)存均有糾錯與檢測代碼,確?煽客ㄐ、數(shù)據(jù)得到可靠保存。至于是單獨選擇錯誤檢測代碼,還是選擇錯誤檢測與糾錯代碼,將取決于終端應(yīng)用。然而,您可以使用許許多多的代碼,從非常簡單到比較復(fù)雜(表3)均可使用。保護級別隨代碼復(fù)雜程度增加而相應(yīng)變化。 表3 - EDAC代碼,從簡單到復(fù)雜。 ![]() 所有工程師,無論其正在研究的終端應(yīng)用是什么,均必須考慮到終端系統(tǒng)的可靠性。工程師可自行選擇許多方法,用于幫助實現(xiàn)高可靠性產(chǎn)品。 |