您的位置:首頁>正文

一起繼電保護裝置資料異常故障分析與對策

國網福建電力調度控制中心、國網福州供電公司的研究人員鄧勇、黃烽、陸榛、宋福海、任曉輝, 在2017年第11期《電氣技術》雜誌上撰文, 本文針對某次繼電保護裝置告警“記憶體錯誤”並伴隨差動保護元件動作報文的故障進行分析, 詳細介紹了動作情況、現場檢查和缺陷排查過程, 查明故障原因是Hdlc編碼晶片運行一段時間後發生引腳接觸不良, 導致與CPU匯流排相連的器件通信異常, 影響各器件的穩定運行。

結合故障案例, 分析繼電保護裝置內部器件結構, 提出了在裝置狀態檢修工作中應對裝置內部器件及其之間通信狀況開展監視、對Flash晶片壽命進行評估等建議。

繼電保護裝置屬於電子產品, 由許多邏輯功能器件組成, 即各類功能晶片及其週邊電路和資料通信匯流排組成, 通過微型處理器的強大運算能力實現複雜的保護邏輯。 邏輯功能器件劣化將會造成不同程度裝置缺陷的發生, 嚴重時將對保護邏輯、裝置行為造成影響, 甚至導致裝置誤動、拒動的發生。 邏輯功能器件通常可靠性較高, 因此暴露出的問題相對較少。 同時由於裝置硬體結構複雜, 需要運維人員具有較高的素質才能夠分析裝置缺陷原因。

裝置缺陷的發展過程通常可用P-F曲線描述, 即裝置功能退化到潛在缺陷P點之後才逐步發展為能監測到的缺陷,

若潛在缺陷未被發現並及時處理, 通常將加速退化直至F點而造成故障。

潛在的硬體缺陷往往也屬於裝置隱性故障, 電力系統正常運行時對系統沒有影響, 但當系統處於壓力狀態時同樣可能造成誤動或拒動故障。 對於電力系統一次設備的老化程度分析通常可以使用其理化參數。

而由於保護裝置結構的複雜性, 關於保護裝置故障的研究通常是圍繞保護邏輯上的錯誤開展, 深入研究由裝置劣化引起故障機理的文獻則相對較少。 隨著保護裝置自檢技術的發展, 大部分功能缺陷通過裝置自檢能夠被發現, 並主動閉鎖保護邏輯和發出告警信號, 使運維人員能及時開展檢修工作。

許多文獻開展了裝置線上監測技術的研究,

主要包括:定值校核、自檢告警事件上傳、多來源資料對比等。 但這些監測功能同樣只局限於反映裝置缺陷是否發生, 仍存在無法反映裝置劣化過程的問題。

本文針對某次由單晶片異常造成裝置其他晶片損壞、保護邏輯錯誤的故障, 詳細介紹了裝置檢查、缺陷分析和處理過程, 分析導致故障發生的原因。 探討繼電保護裝置狀態檢修工作的改進措施, 指出應進一步關注裝置內部器件的劣化過程。 分析了裝置內部器件結構, 提出對裝置內部器件及其之間通信狀況開展監視、對Flash晶片壽命進行評估等措施, 以更全面掌握裝置運行狀態, 提高裝置狀態檢修水準。

1、故障基本情況

2015年5月, 現場對220kV某線路A變電站側差動保護開展定期檢驗工作。

正常運行情況下, 發現零序差動保護元件條件滿足, 發出動作報文。 但啟動CPU不滿足動作條件, 出口繼電器的24V電源未開放, 保護裝置未出口跳閘。

檢查保護裝置, 電壓電流採樣值均無異常, 裝置供電電源無異常。 保護裝置的錄波檔無法讀取和列印, 裝置液晶屏面板頻繁出現“CPU1:記憶體錯誤”報文, 檢查期間還出現保護CPU初始化的情況。

初步認為A變電站側保護裝置的保護模件和AD模件存在缺陷, 由於採樣值異常導致差動保護元件條件滿足。 將保護裝置返廠檢查, 進行詳細試驗分析。

2、故障原因分析

2.1裝置及元件初查

檢查保護裝置模件和AD模件內部器件, 沒有發現器件燒損、鼓包, 電路板完整,

晶片與印刷電路焊接良好。 檢查ROM程式完好性。 裝置液晶屏顯示版本號、CRC碼等資訊與ROM晶片上標籤一致。

由於現場檢查發現裝置有“記憶體錯誤”告警, 初步判斷保護模件中Flash失效, 影響CPU對同一匯流排上的RAM的資料讀寫, 造成電壓電流採樣值異常, 導致差動保護發出動作報文。

2.2裝置試驗驗證

在實驗室中, 給保護裝置輸入電壓電流類比量, 進行多次故障試驗, 使保護裝置頻繁動作, 產生事件報文, 強制CPU重複讀寫Flash。 試驗中出現“記憶體錯誤”告警並且無法讀取錄波檔的情況, 複現了現場缺陷情況。 然後替換嶄新的同型號Flash晶片, 繼續多次試驗, 未再發生同類事件。

繼續試驗過程中, 發現裝置液晶屏顯示差動保護通道誤碼總數緩慢增大。 排除另一套裝置自身異常和光纖接線問題後,判斷保護模件仍存在缺陷未消除。再次檢查保護模件,發現Hdlc編碼晶片在PLCC插座中一側明顯翹起,如圖1所示。

圖1 保護模件側視圖

取下晶片檢查,發現翹起面多個引腳有氧化現象,並有3個引腳氧化嚴重。氧化的引腳處於CPU匯流排的位址位元、位址/資料控制位元、中斷申請信號位元,其接觸不良將造成資料錯誤、通信異常等問題。更換新的Hdlc晶片,連續通電100小時,未再出現異常現象;輸入類比量反復進行故障試驗,保護均正確動作。

2.3缺陷原因分析

綜上可以得,本次故障由於Hdlc晶片接觸不良造成CPU匯流排上相連的器件間通信異常引起。如圖2所示,一方面表現為裝置運行過程中,CPU頻繁對Flash晶片進行擦寫操作,最終造成擦寫次數過多造成Flash損壞。保護CPU記錄事件時無法正常讀寫Flash,檢測程式判斷Flash出錯,保護裝置輸出“記憶體錯誤”告警。

另一方面,匯流排異常導致保護CPU從RAM讀寫採樣值時出錯,正好滿足故障特徵,差動保護邏輯條件滿足。由於CPU自身無法判斷採樣值的錯誤,不輸出告警信號。

圖2 保護CPU板器件框圖

3、保護裝置輸出資訊改進分析

通過上述故障分析過程可以看出,當前繼電保護裝置輸出的異常資訊未充分體現保護內部器件的健康狀況,還需深入地挖掘可獲取的資訊作為補充,以加強對裝置內部器件的監視。

因此,下文首先對保護裝置內部結構進行分析,確立器件之間的關係。然後從器件劣化程度和運行狀態兩方面,探討保護裝置輸出資訊的改進措施,分析反映Flash自身劣化程度的狀態量和反映各器件運行狀態的狀態量。

3.1保護裝置內部器件結構

微機型保護裝置發展已較成熟,通常在分析缺陷時將其分為交流外掛程式、CPU外掛程式、開入外掛程式、開出外掛程式、人機交互外掛程式和電源外掛程式。但使用這種典型結構來描述裝置缺陷部位仍較為簡單,對裝置缺陷產生的機理往往無法描述清楚。

對裝置缺陷的統計、缺陷知識庫的構建也是不夠的。通過對不同型號裝置結構的對比和研究,將常規站微機型保護裝置內部器件以功能作為劃分的主要標準進行細化總結,如圖3所示。

圖3 保護裝置內部細化結構

保護裝置供電電源為直流220V或110V。輸入電壓通過抗干擾處理後,由DC/DC變換器轉換為+5V(3.3V)、+24V、±12V(10V)等多組電源。交流信號通過電壓、電流互感器轉變為保護所需的弱電信號,再通過兩個獨立的濾波和AD轉換模組轉換為數位信號分別送至啟動CPU和保護CPU。

啟動CPU判斷啟動條件、保護CPU判斷保護條件分別開放保護出口電源和驅動保護出口繼電器動作。保護CPU通過光耦隔離,接收外部開入信號。管理CPU則用於實現裝置的其他協助工具。對於使用光纖通道的縱聯保護,保護CPU還連接通道編解碼、光電轉換器、光纖等。不同型號裝置的設計主要在實現各模組功能的硬體選擇上和模組間通信匯流排選擇上存在差異。

裝置外掛程式內部細化結構能更清晰地表現裝置各功能模組之間的關係,可以作為裝置缺陷分析的通用的模型。按照裝置外掛程式硬體設計,建立功能模組層級和外掛程式級兩級對應關係。從而可在功能模組層級對保護缺陷進行分析,定位缺陷,並映射至外掛程式制定維修和更換策略。此外通信匯流排作為連接各個功能模組的通道,也應重點關注。

3.2 Flash老化程度評估指標

根據圖3所示,保護裝置的邏輯功能器件包括MCU、DSP、FPGA、E2PROM、RAM、Flash、AD轉換晶片、通信晶片等多種集成晶片及其週邊電路。通過各器件互相配合、交互資料實現裝置各項功能。邏輯功能器件可靠性較高,且大部分沒有明顯的劣化過程。而其中Flash晶片劣化過程較明顯。

對於長期不間斷運行的保護裝置,Flash的剩餘壽命是值得關注的;同時裝置硬體缺陷或程式設計缺陷可能造成Flash劣化程度出現差異,應在狀態檢修工作中應對其壽命進行監視和評估。

Flash利用懸浮柵貯存電子實現資料存儲。對其進行資料擦寫將消耗懸浮柵表面的矽氧化物,導致flash失效。其壽命與對其擦寫操作有較大關係。其每個記憶體單元有擦寫次數限制,驅動程式通常利用壞塊管理和損耗均衡等技術來保證資料存儲正確和晶片的設計壽命。則其壽命可通過壞塊率和寫入總容量這兩個指標來評估。其中寫入總容量用轉化為允許倍數來評估壽命。

定義Flash寫入容量允許倍數s如式(1)所示。

式(1)

3.3器件通信狀態監視

目前保護裝置提供的許多自檢資訊是用於反映各器件是否存在缺陷。如利用模式校驗法檢查RAM存儲內容;利用同位法或求和校驗法檢查ROM存儲內容;利用計時器監視法檢查CPU運行情況;對比冗餘數據、檢查通道報文格式等手段判斷晶片是否失效,當失效的情況達到一定次數或一定頻率時裝置輸出告警信號。同時保護裝置能通過自動初始化、重發重收、冗余配置等容錯機制以提高可靠性。但這也造成了一些缺陷難以被發現,使保護運行存在隱患。

隨著保護裝置執行時間增加,裝置內部存在的潛在缺陷逐漸發展,裝置功能產生錯誤的概率往往將增加。則對於沒有明顯劣化過程的邏輯功能器件來說,應監視其運行中產生的異常情況,從側面反映其健康程度。

保護裝置中各器件通過大量現場匯流排連接。外部干擾、裝置硬體和軟體缺陷都有可能造成模組間通信異常。因此保護CPU應對各器件的通信狀態進行有效校驗。將每次功能模組發生的通信異常進行記錄,統計總數、頻率等詳細資訊,並按照器件所屬匯流排進行統計。利用裝置本身歷史運行情況進行縱向對比,將能對裝置運行狀態變化趨勢進行判斷。

4、結論

本文針對某次繼電保護裝置自檢告警並發生保護邏輯異常的故障,介紹現場檢查和試驗過程,說明缺陷分析方法和故障原因,為裝置內部邏輯功能器件缺陷分析提供借鑒的案例。

繼電保護裝置作為電子產品,內部設計複雜多樣、製作工藝繁多。目前的裝置狀態檢修中,運維人員對裝置內部器件存在的潛質缺陷的發現能力還有待加強。

通過分析本次故障,本文提出應更全面地獲取裝置內部器件的資訊用於促進裝置潛在缺陷的發現,改進狀態檢修工作。這就需要根據裝置內部器件和其間關係構建更詳細的裝置檔案,對器件運行狀態和通信狀態進行監視,特別地應對Flash開展剩餘壽命的評估。

排除另一套裝置自身異常和光纖接線問題後,判斷保護模件仍存在缺陷未消除。再次檢查保護模件,發現Hdlc編碼晶片在PLCC插座中一側明顯翹起,如圖1所示。

圖1 保護模件側視圖

取下晶片檢查,發現翹起面多個引腳有氧化現象,並有3個引腳氧化嚴重。氧化的引腳處於CPU匯流排的位址位元、位址/資料控制位元、中斷申請信號位元,其接觸不良將造成資料錯誤、通信異常等問題。更換新的Hdlc晶片,連續通電100小時,未再出現異常現象;輸入類比量反復進行故障試驗,保護均正確動作。

2.3缺陷原因分析

綜上可以得,本次故障由於Hdlc晶片接觸不良造成CPU匯流排上相連的器件間通信異常引起。如圖2所示,一方面表現為裝置運行過程中,CPU頻繁對Flash晶片進行擦寫操作,最終造成擦寫次數過多造成Flash損壞。保護CPU記錄事件時無法正常讀寫Flash,檢測程式判斷Flash出錯,保護裝置輸出“記憶體錯誤”告警。

另一方面,匯流排異常導致保護CPU從RAM讀寫採樣值時出錯,正好滿足故障特徵,差動保護邏輯條件滿足。由於CPU自身無法判斷採樣值的錯誤,不輸出告警信號。

圖2 保護CPU板器件框圖

3、保護裝置輸出資訊改進分析

通過上述故障分析過程可以看出,當前繼電保護裝置輸出的異常資訊未充分體現保護內部器件的健康狀況,還需深入地挖掘可獲取的資訊作為補充,以加強對裝置內部器件的監視。

因此,下文首先對保護裝置內部結構進行分析,確立器件之間的關係。然後從器件劣化程度和運行狀態兩方面,探討保護裝置輸出資訊的改進措施,分析反映Flash自身劣化程度的狀態量和反映各器件運行狀態的狀態量。

3.1保護裝置內部器件結構

微機型保護裝置發展已較成熟,通常在分析缺陷時將其分為交流外掛程式、CPU外掛程式、開入外掛程式、開出外掛程式、人機交互外掛程式和電源外掛程式。但使用這種典型結構來描述裝置缺陷部位仍較為簡單,對裝置缺陷產生的機理往往無法描述清楚。

對裝置缺陷的統計、缺陷知識庫的構建也是不夠的。通過對不同型號裝置結構的對比和研究,將常規站微機型保護裝置內部器件以功能作為劃分的主要標準進行細化總結,如圖3所示。

圖3 保護裝置內部細化結構

保護裝置供電電源為直流220V或110V。輸入電壓通過抗干擾處理後,由DC/DC變換器轉換為+5V(3.3V)、+24V、±12V(10V)等多組電源。交流信號通過電壓、電流互感器轉變為保護所需的弱電信號,再通過兩個獨立的濾波和AD轉換模組轉換為數位信號分別送至啟動CPU和保護CPU。

啟動CPU判斷啟動條件、保護CPU判斷保護條件分別開放保護出口電源和驅動保護出口繼電器動作。保護CPU通過光耦隔離,接收外部開入信號。管理CPU則用於實現裝置的其他協助工具。對於使用光纖通道的縱聯保護,保護CPU還連接通道編解碼、光電轉換器、光纖等。不同型號裝置的設計主要在實現各模組功能的硬體選擇上和模組間通信匯流排選擇上存在差異。

裝置外掛程式內部細化結構能更清晰地表現裝置各功能模組之間的關係,可以作為裝置缺陷分析的通用的模型。按照裝置外掛程式硬體設計,建立功能模組層級和外掛程式級兩級對應關係。從而可在功能模組層級對保護缺陷進行分析,定位缺陷,並映射至外掛程式制定維修和更換策略。此外通信匯流排作為連接各個功能模組的通道,也應重點關注。

3.2 Flash老化程度評估指標

根據圖3所示,保護裝置的邏輯功能器件包括MCU、DSP、FPGA、E2PROM、RAM、Flash、AD轉換晶片、通信晶片等多種集成晶片及其週邊電路。通過各器件互相配合、交互資料實現裝置各項功能。邏輯功能器件可靠性較高,且大部分沒有明顯的劣化過程。而其中Flash晶片劣化過程較明顯。

對於長期不間斷運行的保護裝置,Flash的剩餘壽命是值得關注的;同時裝置硬體缺陷或程式設計缺陷可能造成Flash劣化程度出現差異,應在狀態檢修工作中應對其壽命進行監視和評估。

Flash利用懸浮柵貯存電子實現資料存儲。對其進行資料擦寫將消耗懸浮柵表面的矽氧化物,導致flash失效。其壽命與對其擦寫操作有較大關係。其每個記憶體單元有擦寫次數限制,驅動程式通常利用壞塊管理和損耗均衡等技術來保證資料存儲正確和晶片的設計壽命。則其壽命可通過壞塊率和寫入總容量這兩個指標來評估。其中寫入總容量用轉化為允許倍數來評估壽命。

定義Flash寫入容量允許倍數s如式(1)所示。

式(1)

3.3器件通信狀態監視

目前保護裝置提供的許多自檢資訊是用於反映各器件是否存在缺陷。如利用模式校驗法檢查RAM存儲內容;利用同位法或求和校驗法檢查ROM存儲內容;利用計時器監視法檢查CPU運行情況;對比冗餘數據、檢查通道報文格式等手段判斷晶片是否失效,當失效的情況達到一定次數或一定頻率時裝置輸出告警信號。同時保護裝置能通過自動初始化、重發重收、冗余配置等容錯機制以提高可靠性。但這也造成了一些缺陷難以被發現,使保護運行存在隱患。

隨著保護裝置執行時間增加,裝置內部存在的潛在缺陷逐漸發展,裝置功能產生錯誤的概率往往將增加。則對於沒有明顯劣化過程的邏輯功能器件來說,應監視其運行中產生的異常情況,從側面反映其健康程度。

保護裝置中各器件通過大量現場匯流排連接。外部干擾、裝置硬體和軟體缺陷都有可能造成模組間通信異常。因此保護CPU應對各器件的通信狀態進行有效校驗。將每次功能模組發生的通信異常進行記錄,統計總數、頻率等詳細資訊,並按照器件所屬匯流排進行統計。利用裝置本身歷史運行情況進行縱向對比,將能對裝置運行狀態變化趨勢進行判斷。

4、結論

本文針對某次繼電保護裝置自檢告警並發生保護邏輯異常的故障,介紹現場檢查和試驗過程,說明缺陷分析方法和故障原因,為裝置內部邏輯功能器件缺陷分析提供借鑒的案例。

繼電保護裝置作為電子產品,內部設計複雜多樣、製作工藝繁多。目前的裝置狀態檢修中,運維人員對裝置內部器件存在的潛質缺陷的發現能力還有待加強。

通過分析本次故障,本文提出應更全面地獲取裝置內部器件的資訊用於促進裝置潛在缺陷的發現,改進狀態檢修工作。這就需要根據裝置內部器件和其間關係構建更詳細的裝置檔案,對器件運行狀態和通信狀態進行監視,特別地應對Flash開展剩餘壽命的評估。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示