1 發生錯的原因與現有對策
MCU在工作時會受到干擾, 在一些空間場合, 可能遇到粒子轟擊而產生穩態的翻轉, 即所謂single event upset。 而一般工業場合是電源傳導干擾, 受干擾時, 電源電壓會瞬間超出或者略微超出MCU的名義工作電壓, 線路的穩定性就無法保證。 由於各單個邏輯電路工藝過程中總會有微小差異, 電源電壓的略微超出會在最弱的邏輯電路中造成指令讀錯誤和資料讀寫錯誤。 這種錯誤最終表現為資料的錯誤。
國外對DRAM出錯的研究已做得很多, 在參考文獻中轉述了出錯的概率:“穀歌(Google)使用了大量伺服器,
現在對於有功能安全要求的系統, 安全等級為SIL2時, 出錯的概率應小於10-7”/h。 現在控制器所用的MCU的Flash與RAM的大小已達128 K~1 Mb, 參考上述概率, 如果缺少程式的保護, 將會有1M×7×10-11 error/h=7×10-5 error/h, 這遠大于功能安全要求的出錯概率。
從功能安全的角度, 系統中任何影響功能的錯誤都是應該被檢測出來的, 如果這個錯誤危及人類生命或造成設備的重大損失, 那麼就必須有防範的措施, 必要時就必須糾正錯誤。 然而要達到這種要求是很難的, 需要付出很大的代價。 以資料錯誤為例, 人們常常重複計算多次, 然後把占多數的結果代表正確的結果。 這樣, 資料分享前的結果都要經表決, 否則發現錯會太晚,
為了節省成本, 更多的應用並沒有採用這種冗餘與表決的方法。 它們往往以不死機作為目標, 只要不死機, 由控制物件來的新資訊就可以重算出新的正確結果。 即使上一次算出的錯了, 其後果也只延續了一個採樣週期。 這種策略對有累積效應的應用是無效的, 就像參考文獻中討論的積分功能會失敗。 又如運行結果與過程密切相關的應用, 例如可程式設計控制器(PLC), 資料的錯誤會導致控制邏輯的混亂。
保證不死機的主要措施是採用看門狗技術, 如果程式走飛,
2 錯誤現象與錯誤校正方案
MCU的指令在讀取時發生錯誤就會產生不同的執行結果, 在參考文獻中以8051的MOV指令為例, 當有一位讀錯時就變成跳轉、除法、減法、交換、增1等等指令。 實際上大部分MCU都會有指令錯而執行結果錯的問題, 因為這些指令內沒有檢驗錯的機制。 MC68HC11的LDA指令有1位元錯時可能轉為加法、減法、送立即數到累加器B、送狀態存器、送堆疊指標等指令。
假定資料字用D表示, 生成多項式用G表示, Gm為最高階的係數, 等於1。
Dn=0, Gm-i=0時, 習慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i。
Dn=0, Gm-i=1時, 習慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i+Dn=Dn-i。
Dn=1, Gm-i=0時, 習慣方法Mn-i=Dn-i+Gm-i=Dn-i;修改方法Mn-i=Dn-i。
Dn=1, Gm-i=1時, 習慣方法Mn-i=Dn-i+Gm-i=Dn-i+1;修改方法Mn-i=Dn-i+Dn=Dn-i+1。
現在對G=X4+X+1時8位元指令的資料字用修改方法求取CRC各位的值, 為了閱讀方便, 將資料字的各位用數位代表, 例如7代表D7。 參與模2加的各位就以各數位連寫在一起。 例如CRC的最高一位是7 532, 它代表D7、D5、D3、D2的模2加法結果。 通過建立真值表, 它們最後都可以用組合邏輯來實現,