從數據中心的日常業務運維方面考慮,則主要有日常檢查、應用變更、軟硬件升級、突發故障等
1、日常檢查:
任何的故障在出現之前都可能會有所表現,小的隱患不消除,可能導致重大的故障出現,所以數據中心日常的例行檢查可以及時發現一些運行中的隱患。根據數據中心承載業務重要性的不同,要對數據中心里的所有運行的設備進行例行檢查。檢查服務器應用服務是否正常,CPU內存等利用率是否正常。對應用業務進行檢查,看業務運行是否正常。還有對數據中心的機房環境也要進行檢查,環境的溫度、濕度、灰塵是否合乎要求??照{、供電系統進行運行良好,設備運行是否過熱,地板、天窗、消防、監控都是檢查的部分??照{漏水、設備漏電都會對數據中心正常穩定運行產生危害,既要人為定期檢查也需結合自動化運維工作進行提前事前預警。
2、應用變更:
數據中心承載的業務不會是一成不變的,隨著業務的多樣化和不斷發展,經常要對業務進行調整,包括服務器和網絡的設置。對服務器和網絡設備操作進行相應的調整。根據應用的需要,及時準確做出變更。
3、軟硬件升級:
數據中心的設備一般運行周期為3-5年,不斷地有設備需要逐漸淘汰進行更換,也有一些設備因為存在軟件缺陷需要升級,因此軟硬件升級也是維護工作的一部分。軟硬件升級時需要做好回退機制,以防升級出現問題時無法回退,業務長時間無法恢復。
4、突發故障:
沒有任何一個數據中心是不出故障的,對于突發故障,我們將結合整體架構分析故障的觸發原因,迅速找到解決的方法,如果在短時間內找不到解決方法,也可以通過切換到備用設備上先恢復業務,再進行分析。數據中心日常維護工作實際上非常重要,關乎著整個數據中心業務的正常運行。通過多種組合方式保障數據中心根據運行情況,在事后及時調整架構也方便進行下一個階段的規劃。