工控機關于非藍屏現象的死機故障的探討
死機是工控機故障中較為常見的一種,同時它也是最令人頭疼的一種。因為其故障點可大可小,而且產生死機的原因有很多種,另外其故障現象也是多種多樣的,我們可以把故障現象總的歸為兩大類——規律性死機和隨機性死機。至于死機現象給人的主觀表現多為“藍屏”、畫面“定格”無反應(同時鼠標和鍵盤也無法輸入)、經常出現非法操作(或強行關閉某程序)、在進入操作系統前就已失去反應等,在這一篇只討論除藍屏之外的死機現象。 乍看上去死機故障好象很“可怕”,但其故障原因永遠也脫離不了硬件與軟件這兩方面,下面就以出現死機故障的前提“條件”來分類說明一下工控機“死機”的原因及其處理方法(結合故障現象),希望對大家會有一些幫助。
第一類情況:在正常使用的情況下偶爾出現死機故障且日益頻繁,或突然出現死機故障后就頻繁出現。
1、因灰塵過多而引發的頻繁“死機”故障
一臺新工控機在國內的一般電廠的中控室使用一年左右后,其內部就會有很多灰塵了,如果進入到某個板卡的插槽中就可能引起該板卡接觸不良而出現死機或其它故障,而且常是無故死機。 另外,機器內灰塵過多就會對某些重要工控機硬件設備的散熱問題造成壞的影響,CPU和顯卡等重要硬件如果散熱不良自然就會引起藍屏或花屏或定格或黑屏死機故障,此類死機現象雖然通常并沒有什么規律可言,但使用時間越長其死機次數就越頻繁。如果軟驅磁頭或光驅激光頭上的灰塵過多的話,那么就會會導致讀寫盤困難,嚴重的就會引起工控機藍屏死機。
所以說一定要交代錄波器用戶一年對工控機進行一次徹底除塵,當然,如果對工控機結構不是很懂的話的話,就要找一個懂計算機的人來操作,以免造成其它故障。平時經常保持工控機運行環境的潔凈也是一個非常不錯的措施。 2、因某硬件的散熱不良而導致頻繁“死機”故障
CPU、顯卡、硬盤、電源等硬件在工作中發熱量都是非常大的,好在它們多數都擁有自己的散熱風扇,所以通常并不會因此而發生死機現象,但如果風扇上的灰塵過多或潤滑不良或磨損嚴重或嚴重老化的話,那么這些硬件設備的散熱就存在問題了,久而久之,隨著情況的不斷惡化,就會出現在開機使用一段時間后頻繁死機或重啟的現象。
所以說一定要提醒錄波器用戶定期檢查一下工控機中各風扇的工作狀態并定期為其進行潤滑(建議使用縫紉機油)或者更換以避免此類故障。如果已經出現了每次使用都會頻繁死機故障的話,也不要著急,只要打開機箱并在工控機運行時觀察一下哪個風扇有異常(如噪音很大或轉速明顯減慢或停轉等)或哪個硬件溫度異常(如用手一摸某芯片或散熱片非常燙手等),然后再做相應的處理就可以了。
3、因內存中存在沖突而導致無故“死機”故障
這一情況在同時運行多個軟件時比較容易出現,雖然有時候同時運行很多軟件一切正常,但有時卻忽然間莫名其妙地死機了,重新啟動后再運行這些應用程序時又已十分正常了,其實這些故障中有很多只是假死機現象,其原因多是內存資源發生了沖突——應用軟件是在內存中運行的,但有些應用軟件由于設計方面的原因會和另一軟件同時使用同一塊內存地址,這時就會出現沖突。此類死機現象通常是定格死機或重啟或藍屏或提示“非法操作”或失去響應。
對于此類故障只能避免而不能根除——即盡量不要讓很多程序同時運行,避免用戶安裝使用一些不明來源的軟件。 4、因接插件接觸不良而引起無規律“死機”現象
此類故障比較好判別,因為無論您運行多么小型的程序都有可能會死機,甚至有時在啟動時就定格死機,而有時長時間運行大型程序也不會死機。所以此類故障的故障點還是非常好找的,通常您只要把所有能拔下來的東西(如網卡和電源插頭等)都拔下來做清潔再插上去就可以了,當然,如果有哪里生銹了的話,您要先除銹或將這個生銹的部件換新。
5、因內存條故障而導致的頻繁“死機”故障
由于內存條的工作頻率越來越高,其發熱量也隨之升高,而穩定性也就要相對差一些了,通常內存條故障是指內存條松動、虛焊或內存芯片本身損壞或不穩定等。如果工控內存插槽上插著著兩個不同規格的內存,最好去掉一個,使用兩個不同規格的內存也會導致死機。
如果您在WINDOWS操作系統中經常出現與內存有關的非法操作等死機現象或直接提示注冊表出錯而重新啟動機器的話,那么我們就要先檢查一下是不是內存條松動或有灰塵進行入到了內存插槽內,如果未發現異常您就要換一下內存條試試了,如果一切正常了那就說明內存條本身可能存在故障了。
6、硬盤剩余空間太少或磁盤碎片太多也會導致“死機”故障
由于一些大型應用程序運行時需要大量的內存,如果物理內存不足就需要使用硬盤上的虛擬內存,此時如果硬盤的剩余空間太少的話,那么就有可能會引起死機現象。另外,如果工控機長時間沒有整理硬盤碎片的話也會使系統資源緊張而死機,當然,如果硬盤中的垃圾文件過多的話,也會造成硬盤尋找文件的困難而造成死機現象。此類故障的表現也是比較特殊的——通常都是在硬盤連續“瘋狂”進行讀、寫盤操作時會突然定格或藍屏死機。當然,NTFS磁盤文件格式會產生較少的磁盤碎片。所以系統盤一定要使用NTFS磁盤文件格式。
所以說,您最好是把虛擬內存設置到剩余空間比較大的分區中,而且要定期清理各種垃圾文件和定期整理磁盤碎片。
7、因硬盤故障而導致頻繁“死機”故障
如果硬盤嚴重老化或在運行中受到震動或出現邏輯、物理壞道或出現壞扇區的話,那么工控機在運行時就很容易發生頻繁死機故障。至于處理方法最好是更換硬盤,如果只是邏輯錯誤的話還是可以用各種修復軟件進行修復的。由于有些此類故障的故障點并不是很容易就能發現的,所以如果進行“磁盤掃描程序”,也會排除此類故障。
8、因劣質配件而導致的頻繁“死機”故障
此類故障多是由于使用了品質不良的板卡引起的,如果運行什么大型程序都死機的話,就要考慮更換一下電源試試了,這是一個不容忽視的問題。工控機內安裝有大量的板卡,耗電很厲害,如果電源容量不足,很容易出問題。
所以說在出廠調試時一定要嚴格測試,以免日后出現問題。
9、隨機啟動的程序太多也會導致無故“死機”故障
此類死機故障比較特殊,因為這可謂是名符其實的無故死機。現場調試時,就是去喝個水的功夫來操作工控機就會造成死機、在關機時也可能會出現死機,不過好在此類死機故障并不會出現在啟動時,所以還是比較好判斷的。有人說此類故障只是在內存比較小的工控機中才會出現,但在實際維修中筆者發現在大內存的工控機上一樣會出現,因為系統資源是多方面的(除內存資源外還包括緩存、GUI、CPU等資源),CPU和硬盤等也會因此而受不了的,解決方法也很簡單,除了必需的數據庫和錄波分析軟件,不要隨機啟動其他的任何程序。
另外,如果桌面上的圖標過多或打開的窗口過多的話同樣會出現無故死機故障,所以這一點一定也要注意避免,桌面上的圖標和“快速啟動欄”中的圖標越少越好,其它的快捷方式您可放入到“開始”菜單中,通常“開始”菜單是沒有什么限制的。
第二類情況:在進行了某種操作或發生某突發事件后,就頻繁出現死機故障或根本就無法正常使用工控機了。
1、在對BIOS設置進行了修改后出現“死機”故障
有時運行人員為了提高系統的性能往往對硬盤參數設置、模式設置、內存參數、CPU參數等設置進行了某些錯誤的設置,輕則系統變得不穩定而頻繁死機,重則根本就進入不了WINDOWS系統了,更有甚者干脆就開不了機了。
對于無法再開機的工控機來說通常只要清除BIOS設置就行了,在BIOS里選擇“Load fail-safe Defaults(最低性能)”或者“Load optimized Defaults(最高性能)”;對于在進入WINDOWS時就死機或經常要求您進入“安全模式”,這時就要查看一下BIOS中有關硬盤和CPU的設置了,另外,如果將沒有ECC功能的內存的ECC功能打開的話同樣會因內存錯誤而造成死機,這時可做相應的修改或干脆恢復默認值。 2、在添加安裝完某硬件或更新某硬件的驅動程序后出現頻繁“死機”故障
對于第一類情況來說,通常是發生了設備沖突問題,如中斷、DMA、端口、I/O等出現沖突。
對于第二類情況來說,所安裝的硬件驅動程序有兼容性問題。可能是這個硬件設備新安裝的驅動程序因和另一個設備的驅動程序存在沖突、新驅動程序本身存在問題、新驅動程序與系統的某個文件存在版本沖突;安裝了別的操作系統下的驅動程序(比如把FOR xp的驅動安裝到了2000操作系統中)以致于發生死機故障。由于引發該故障的可能性非常多,所以要做相應的解決方法,比如:以“安全模式”啟動,然后在“設備管理器”中進行相應的查看和設置。或者卸載這個驅動,安裝經過微軟認證的驅動程序。安裝后在硬件驅動程序版本里邊有“數字簽名程序:Microsoft Windows Hardware Compatibility Publisher”字樣。。
3、在安裝完某個軟件后只要運行某軟件或使用某硬件時就會出現“死機”現象
所安裝的軟件有兼容性問題(例如:可能是測試版本),和其他軟件或者這個版本的操作系統有沖突。例如某些個人版軟件不適合安裝在服務器版操作系統上,強行安裝會出現此類問題。 卸載導致藍屏的軟件,或者安裝該軟件和操作系統兼容性好的版本。通常是在安裝了某個對系統要求非常嚴格的軟件后才會出現此類故障。最好不要安裝這個軟件。如果必須要安裝,可以試試使用其它的非測試版本,兼容性好的同類軟件。
當然,有一些軟件是因為本身的某個重要文件已損壞才會導致死機現象,該類情況多見于以前使用正常,但經過一個突發事件后就出現問題了的機器上,這時只要卸載該軟件并重新安裝一次就可以了。
注意:如果在安裝完一個新的硬件設備后出現死機現象,也可能是由于該新硬件與原已存在的某個軟件存在兼容問題。
4、對操作系統進行了某項設置后就頻繁出現“死機”故障
對操作系統進行了某項錯誤的設置后經常會出現死機故障,比如把虛擬內存的大小設置得過小也會導致在運行大型程序時死機。由于此類故障原因非常好查找——檢查虛擬內存時改為“讓Windows 管理”也就可以了。
另外,出廠時必須把硬盤的休眠功能關閉;在電源管理里邊把能造成硬盤關閉的電源使用方案全部刪除。工控機大部分時間工作在不經常讀、寫硬盤的情況下,這樣的設置有時也會造成數據上傳時硬盤停止響應而死機。
5、在升級更新操作系統后或更換大容量硬盤后,因內存容量不夠而導致“死機”故障
Windows 2000 和大容量的硬盤對物理內存都有更高的要求,如果內存容量不夠大的話,就會因此而發生死機故障,而且該死機現象通常是沒有什么規律的,通常表現多是藍屏死機。
在理論上內存容量應不小于硬盤容量的0.3~1%,如果內存容量不能達到這個比例的話,需要把內存進行相應的擴容。
6、人為地把某動態鏈接庫文件、系統的初始化文件、系統文件誤刪除后導致系統“死機”或無法啟動
擴展名為DLL的文件就是動態鏈接庫文件,在Windows操作系統中它的作用是非常重要的,這些文件從性質上來講是屬于共享類文件——即一個DLL文件可能會有多個軟件在運行時需要調用它;Windows 2000系統在啟動時需要有boot.ini和一些虛擬設備驅動等文件,如果這些文件被誤刪除或遭破壞的話,那么您就進不了Windows了,除非使用Ghost恢復或者重新安裝系統。
7、因非正常關閉工控機而導致“死機”故障
這里所說的非法關機主要是指直接關閉電源而不用WINDOWS自動關機,通常一次非法關機不會造成太大的危害,但如果長期非法關機就有可能造成系統文件損壞或丟失,引起在啟動、運行中、關機時出現定格,藍屏等死機故障。對于Windows操作系統來說這點非常重要,所以只要告訴值班人員正確關機就不會導致此類故障了。
另外,有時這種非法關機還會造成硬盤出現邏輯錯誤而頻繁出現死機,不過好在非法關機后系統會自動進行磁盤掃描,但有些人會將其跳過不讓系統進行自動檢查,交代值班人員不要這么做,不然如果出現邏輯壞道時就要后悔了。
8、使用病毒實時監控軟件或防火墻后導致系統經常“死機” 已經發現個人版的殺毒軟件安裝在Windows 2000 Server上便會導致系統不穩定,如果需要此類軟件,請安裝經過測試的企業版殺毒軟件。
9、因感染了計算機病毒而導致了死機故障
有些病毒可以使計算機工作效率和系統資源急劇下降而造成頻繁死機。對于這一種故障,最好是在系統正常時把操作系統所在分區進行鏡像備份,到中毒后只要還原一下就行了。
10、在升級BIOS時出現意外或升級失敗或升級的BIOS文件已損壞而導致死機故障
如果你從來沒有有過BIOS升級的經驗或者硬件不需要升級,建議最好不要這樣做,這是個很危險的操作。應該把工控機交給廠商處理。
11、在對某硬件設備進行了熱插拔后出現死機故障
對IDE接口的硬盤進行熱插拔非常容易造成死機(指雙硬盤),尤其是在某些國產品牌機中這一現象更為普遍。但這個死機故障并不會持續太久,通常只要關機再開機就可將問題解決了。另外,雖然說現在有很多設備都支持熱插拔,但還是不要這么做,畢竟對于電力系統用戶來說“安全”至上。

提交
超越傳統直覺,MATLAB/Simulink助力重型機械的智能化轉型
新大陸自動識別精彩亮相2024華南國際工業博覽會
派拓網絡被Forrester評為XDR領域領導者
智能工控,存儲強基 | 海康威視帶來精彩主題演講
展會|Lubeworks路博流體供料系統精彩亮相AMTS展會