您的位置:首頁>科技>正文

監控是資料中心的天眼

雖然現在有無人值守資料, 有軟體定義資料中心, 各種智慧化的資料中心, 但實質上這些資料中心都是離不開人的, 若沒有人的參與和指導, 這些設備都還可能處於無序的工作狀態。 就像前段時間, 有人討論機器人和人的關係, 未來究竟是誰能代替誰的問題。 對於資料中心來說, 人在資料中心的運行週期裡依然起著最為關鍵的作用, 資料中心離不開人。 資料中心也不是放在那裡運轉起來就不用管了, 還是需要人去監控和管理。 所以無論一個資料中心的自動化水準多高, 技術多先進, 都需要監控,

監控是整個資料中心生命週期中最重要的一環, 事前及時預警發現問題, 事後提供詳實的資料用於追查定位問題, 一切資訊和資料都有溯源可查, 這就是監控的作用, 通過監控得到的資訊可以提升資料中心的運行效率和運維水準, 提高生產力, 所以說監控是資料中心的天眼。

關於資料中心監控方面的技術和工具數不勝數, 從最開始的SNMP MIB網管, 到現在的雲計算工具, 視覺化、圖形化、自動化的工具可真是不少, 而且不少還是開源的免費使用。 比如:MRTG(Multi Route Traffic Grapher)、Ganglia、OpenTSDB、Zabbix都是免費的, 當然用起來都有不少問題需要自己修改, 還有一些專業的定制化軟體, 這些則需要支付費用, 針對特定的資料中心設計一些專用的監控軟體。 不管是哪個軟體,

本質都是從資料中心的各個運行設備上獲取與運行相關的資料資訊, 從而判斷資料中心運行是否正常, 將這些資訊傳遞給管理人員, 由管理人員進行決策, 如果是簡單的切換動作, 也可能交給監控軟體自行完成。 所以, 對於監控來說主要完成六件事:採集、存儲、分析、展示、報警、處理, 如果一個資料中心的監控系統具備完成這六部分的內容, 那這個資料中心一定是很棒的, 管理人員可以天天喝茶去了。 具體來講這六個部分, 採集指的是通過SNMP、ICMP、設備命令等對各種設備進行資料獲取, 這個採集的資料量也許是海量的, 資料越多越好, 這樣對於判斷分析問題更為準確;存儲指的是要將這些採集到的資料定期存儲下來,
避免丟失, 方便日後回查;資料分析指的是當我們事後需要複盤分析故障時, 可以對這些資料進行分析, 借助於大資料、雲計算等新技術, 對採集到的海量資料進行分析, 也可以將這些資料通過圖形化、概率統計方式進行顯示, 方便分析;資料展示指的是將資料中心運行的各種即時參數(比如:流量圖、業務洪峰、網路互聯情況、環境情況等)通過網頁或者大屏的方式顯示出來, 讓人一目了然。 不少的資料中心都有這樣的顯示大屏, 將資料中心的各個系統運行狀態和關鍵資料在大屏上顯示出來, 哪裡出問題可以立即在大屏上看到, 便於管理人員發現並及時排除問題。 監控告警指的是為這些監控的資料設定安全閾值,
一旦採集到的資料不符合安全閾值要求, 立即發出監控告警, 包括電話告警、郵件告警、微信告警、短信告警、告警升級機制等。 報警處理指的是當接到告警後, 我們需要根據故障的級別進行處理, 比如:重要緊急、重要不緊急、不重要緊急、不重要不緊急等, 根據故障的級別, 配合相關人員進行快速處理。

那麼, 資料中心的監控都監控哪些方面呢?資料中心的確是一個非常複雜龐大的系統, 監控不可能面面俱到, 一定要監控對資料中心最重要的地方。 一般來講, 資料中心的所有設備硬體狀態都要監控, 電子設備出現硬體故障在所難免, 一個擁有十幾萬台伺服器的資料中心幾乎每天都會有伺服器故障, 所以對這些伺服器的硬體情況一定要監控,

發現異常及時將故障設備下線, 業務切換到其它伺服器上繼續運行;還要對所有設備的CPU、記憶體、磁片使用率、磁片讀寫都要監控, 發現異常及時處理;業務服務的監控, 通過腳本來實現想監控的內容, 以及報警和圖形功能;網路的監控, 網路是資料中心的重要組成部分, 一般也是由數百台的網路設備連接組合到一起, 要對這些設備和鏈路進行監控, 發現異常及時告警;還有安全監控、業務監控、流量分析、視覺化、自動化監控等等, 一個完整的監控體系要做的工作非常多。 但一定要注意, 切不可大而空的監控, 如果做不到全部就做部分, 監控資料中心的一部分, 將這部分做精做好, 很多時候採集的資料不正確或者關鍵資料沒有採集到,導致問題並不是由監控系統反映出來,而是由業務層面回饋出來的,這時對業務已經造成了影響,監控系統沒有起到應有的作用。監控系統要全面,但也要注重採集和分析資料的準確性。

監控是資料中心的天眼,對資料中心的重要性不言而喻,就好像人走路不能離開雙眼一樣,每個資料中心在整個運行週期過程中都在不斷完善和建設自己的監控系統。監控的目的是要及時發現資料中心出現的問題,並且能及時定位問題、解決問題,當然事後還要總結。如果監控不能做到這些,那麼就不是一個好的監控系統。監控系統就好比是資料中心的體檢醫生,要能看病還能治病,資料中心不舒服了,立馬在監控系統上就有體現,這樣監控才能起到應有的作用。有了監控系統,人的作用的確不大了,只要人去做決策就好了,監控會將資料中心的運行狀態記錄下來並及時給出告警,以便人們進行處理,好的監控系統就是只將YES或NO的選擇留給人們去做,所有的資訊資料監控系統已經分析好了。

很多時候採集的資料不正確或者關鍵資料沒有採集到,導致問題並不是由監控系統反映出來,而是由業務層面回饋出來的,這時對業務已經造成了影響,監控系統沒有起到應有的作用。監控系統要全面,但也要注重採集和分析資料的準確性。

監控是資料中心的天眼,對資料中心的重要性不言而喻,就好像人走路不能離開雙眼一樣,每個資料中心在整個運行週期過程中都在不斷完善和建設自己的監控系統。監控的目的是要及時發現資料中心出現的問題,並且能及時定位問題、解決問題,當然事後還要總結。如果監控不能做到這些,那麼就不是一個好的監控系統。監控系統就好比是資料中心的體檢醫生,要能看病還能治病,資料中心不舒服了,立馬在監控系統上就有體現,這樣監控才能起到應有的作用。有了監控系統,人的作用的確不大了,只要人去做決策就好了,監控會將資料中心的運行狀態記錄下來並及時給出告警,以便人們進行處理,好的監控系統就是只將YES或NO的選擇留給人們去做,所有的資訊資料監控系統已經分析好了。

Next Article
喜欢就按个赞吧!!!
点击关闭提示