分散控制系統(DCS)的可靠性
分散控制系統(DCS)的主要作用是對生產過程進行控制、監視、管理和決策,因此要求它必須具有很高的可靠性,這樣才能保證工廠的安全、經濟運行。為了實現這一點,在分散控制系統中采用了許多提高可靠性的措施。我主要從可靠性的一般概念、可靠性分析方法、分散控制系統中采用的可靠性措施,以及軟件的可靠性問題進行簡單的論述。
可靠性的研究工作隨著大規模計算機系統和國際性計算機通信網絡的不斷發展,可靠性問題己經成為一個十分重要的問題,可靠性理論也在這種形勢下不斷地發展和完善,可靠性技術的研究內容大致分為四個方面:可靠性設計、可靠性分析、可靠性試驗、可靠性管理。
可靠性設計旨在按照一定的技術要求,設計和制造出可靠性高、不易損壞的產品;可靠性分析則是通過對有關數據的收集、分析和計算得出一些關于可靠性問題的評價和結論;可靠性試驗是驗證系統可靠性是否達到規定指標的手段,它能暴露系統設計中可能存在的問題;可靠性管理著眼于從管理方面提高整個系統的可靠性,例如制定合理的檢修周期,配備合適的備品備件,安排適量的檢修人員等。
一、分散控制系統中的可靠性措施
在分散控制系統中,采用了許多提高可靠性的技術措施。這些技術措施是建立在以下四種基本思想上的:一是要使系統本身不易發生故障,即所謂的故障預防;二是在系統發生故障時盡可能減少故障所造成的影響,即所謂的故障保安和故障弱化;三是當系統發生故障時,能夠讓系統繼續運行,即所謂的故障容許;四是當系統發生故障時,可以在不停止系統運行的情況下進行維修,即所謂的在線維修。基于這四種基本思想,分散控制系統中采用了各種各樣的可靠性措施。
1 嚴格進行質量管理和提高系統硬件水平
硬件是系統正常工作的物質基礎,也是影響系統可靠性的關鍵所在。因此,提高硬件的平均故障間隔時間MTBF是提高系統可靠性的重要措施。為了實現這一點,分散控制系統的制造廠家采取了許多措施。
1.對元器件進行嚴格的篩選和老化
所謂篩選,就是將不符合使用條件的元器件,通過適當的方法予以剔除。所謂老化就是在元器件投入使用之前,將其置于一定的工作條件下,使有可能發生參數漂移的元器件逐步穩定。
2.元器件的降額使用
電子元器件都有一定的使用條件,這些使用條件是以元器件的某些額定參數值來表示的。實踐證明,當元器件的工作條件低于額定值時,其工作比較穩定,發生故障的機會也比較少。所以為了提高可靠性,往往將元器件降額使用。降額的幅度要從可靠性和經濟性兩方面綜合考慮,因為元器件的額定參數越高,價格也越高。
3. 充分考慮到參數變化的影響
在電路設計上充分考慮到元器件在使用過程中受參數變化造成的影響,使之在各種不利情況下均能正常工作。
4. 采用低功耗元件
低功耗元件的發熱量比較少,它們的故障率相對來說比較低。另外,普遍采用低功耗元件可以大大地減輕電源的負擔,提高電源的可靠性。
5. 采用噪聲抑制技術
在工業控制現場,各種各樣的干擾脈沖常常是造成控制系統硬件故障的原因。因此,采用噪聲抑制技術是提高系統可靠性的一種行之有效的辦法。
6. 耐環境設計
在系統硬件的設計上,充分考慮各種環境因素的影響,采用適當的冷卻、抗震、防塵、防腐等技術措施,以提高系統抵御外部環境侵襲的能力。
2 使系統故障時處于安全狀態
1.限制故障范圍
系統在工作中不斷地進行在線故障檢測, 一旦發現故障,就將故障設備與系統隔離,使它不致于影響其他設備的正常運行。
2. "凍結"CPU輸出
如果系統檢測到CPU故障,則立即"凍結"控制系統的輸出信息,以免造成輸出混亂。
3 采用后備措施
1.手動后備
對于重要的控制回路,可以采用手動后備的方法來提高可靠性。一旦自動控制失靈,可以手動控制生產過程。分散控制系統有三種處于不同層次上的手動操作方式,見下圖:
(1)在運行員操作站上進行手動操作 這種手動操作要求運行員操作站、通信網絡、基本控制單元、過程輸出通道都能夠正常工作時才能進行,因此,具有一定局限性。
(2)用手動操作站通過I/O模件進行操作 這種手動操作方式所經過的環節比較少,因此具有較高的可靠性。但它仍然要求I/O模件正常工作,否則手動操作不能進行。
(3)用手動操作站直接進行操作,在這種情況下,手動操作站直接輸出4~20mA或1~5V的模擬量信號去控制執行機構。因此,即使I/O模件發生故障,手動操作仍然可以進行。這種手動操作也是電廠中經常采用的一種操作。
2.自動后備
自動后備是采用冗余的方式設置另外一套或幾套備用控制裝置。當處于運行狀態的自動控制裝置發生故障時,備用控制裝置自動投入,維持系統的自動控制。自動后備是冗余系統的一種形式,后面將進行較為詳細的討論。
二、軟件的可靠
以上所討論的是硬件的可靠性,下面將簡要介紹軟件可靠性的一般概念。軟件可靠性方面的研究工作起步較晚,但近年來逐漸引起人們的重視。其主要原因是,軟件的可靠性不高不僅會影響系統的工作,甚至會導致系統的癱瘓,造成不可挽回的事故。例如,在1963年,一個隱藏的軟件錯誤曾經使美國飛往火星的火箭發生爆炸,造成一千萬美元的損失。軟件可靠性的研究目前還不太成熟,但掌握一些基本概念,對于更好地認識軟件可靠性問題是有禪益的。
1 軟件的可靠性
軟件的可靠性最初僅僅被認為是軟件的準確性。如果軟件能夠準確無誤地完成所要求的功能,人們就認為軟件是可靠的。然而,這最起碼的要求也常常不能得到滿足。有人做過統計,對于初次編出的軟件,平均每100--4000條指令就會出現一個錯誤。這些錯誤需要在調試、聯調、試運,甚至到運行時才能陸續被發現和改正。近年來,人們對軟件可靠性賦以更廣泛的含義,即便于使用和便于擴展。如果一個軟件不便于使用,不便于擴展,就認為這個軟件存在著缺陷。軟件的質量主要由以下六方面的因素決定:
(1)時間因素 與硬件一樣,軟件也有MTBF、MTTR等指標。除此之外,還有以下時間指標:系統平均不工作間隔時間MTBD(Mean Time Between System Downs)、平均停機時間MDT(Mean Down Time)。
(2)缺陷頻數 包括軟件缺陷數、文件缺陷數、用戶提出的補充要求數。
(3)與軟件可靠性有關的百分率 除了與硬件相似的可靠性、可用性、可維修性、故障率等百分率之外,還有以下幾種百分率:
不合格率: 不能算故障但應進行改進的事件叫不合格事件,它的出現率叫不合格率。
延遲率: 一項要求在規定時間T內完成的任務,由于軟件不可靠,實際完成時間為T1,則定義D= T1-T為延遲時間,D/T叫延遲率。
誤操作率: 這與操作者的操作水平有關,但在一定程度上反映了軟件說明書是否清楚,以及軟件是否適用于操作。
原因不明率: 出現了軟件故障但查不出原因,從而無法糾正的故障率叫原因不明率,它反映了軟件的可維修性。
同故障事件率: 第一次出現的故障在采取措施糾正后仍重復出現的再現率叫同故障事件率。它反映了糾正措施不徹底。
可靠性經費率: 為軟件可靠性及維修所付出的費用與總軟件費用之比叫可靠性經費率。
(4)軟件投入 包括開發軟件所消耗的工日數或工時數,對軟件檢查的項目數,對用戶提出的要求采取對策的費用等。
(5)軟件特性 包括軟件是首次開發的還是基本套用的、復雜程度、標準化程度、結構及規模大小、軟件的壽命周期等。
(6)使用方面特性 軟件使用方面的特性(例如,在線系統、實時系統等)、計算機的特點、所用的體制、質量標準等。
2軟件的質量標準
在此僅介紹以下幾種常用的軟件質量指標:
(1)平均不工作間隔時間MTBD。設Tv為軟件正常工作總時間,d為系統由于軟件故障而停止工作的次數,則有 MTBD=Tv/(d+1)
(2)系統不工作次數(在一定時間內)。由于軟件故障停止工作,必須由操作者去介入再啟動才能繼續工作的次數。
〈3〉平均修復時間MTTR。它反映了出現軟件缺陷后采取對策的效率。對于在線系統而言,一般要求MTTR<2d,普通系統的MTTR<7d。
(4)平均停機時間MDT。由于軟件故障,系統停止工作時間的均值。對于在線系統而言,要求MDT<10min,普通系統的MDT<30min。
(5)可用性A。設Tv為軟件正常工作時間,TD為軟件故障使系統不工作的時間,則
定義:
A =TV /(TV +TD)
上式也可以表示為
A=MTBD/(MTBD+MDT)
(6)初期故障率。一般以軟件交付使用方的三個月為初期故障率期。初期故障率以每100h的故障數為單位。它用來評價軟件交付使用時的質量,并且預測何時軟件可靠性基本穩定。一般要求初期故障率不超過1,即每百小時不到一個故障。
(7)偶然故障率。一般以軟件交付給使用方后的四個月為偶然故障期,偶然故障率一般以每1000h的故障數為單位,它反映了軟件處于穩定狀態下的質量。一般要求偶然故障率不超過1,即每1000h不到一個故障,亦即MTBF超過1000h。
(8)使用方誤用率。使用方不按照軟件說明書等文件進行使用所造成的錯誤叫使用方誤用。在總使用次數中,使用方誤用次數所占的百分率叫做使用方誤用率。
(9)用戶提出補充要求數。如果用戶對軟件提出了補充要求,則反映了軟件的功能尚不能充分滿足用戶的需要。如果這種情況在軟件應用了一段時間以后頻繁出現,則說明軟件已經進入老化期,應該開發新的軟件來取代它。一般在偶然故障期,用戶每月提出的要求數不應超過1。如果平均數己超過1,則認為軟件己進入老化期。
(10)處理能力。處理能力有各種指標。例如可以用每秒鐘處理多少過程輸入變量、更換每一幅CRT畫面需要幾秒鐘等來表示。
以上介紹了分散控制系統可靠性方面的一些基本概念。這些概念對于正確理解和合理應用分散控制系統都是很重要的。因此我們要對DCS系統的可靠性要加強重視,希望大家都能對DCS系統的安全可靠性有一個正確的了解。
文章版權歸西部工控xbgk所有,未經許可不得轉載。