高效虛擬化策略實現私有云的性能監控 |
發布時間: 2012/8/10 16:23:33 |
私有云性能監控非常重要,不僅能診斷故障,而且確保服務級別滿足集中化服務所需。為保證成功,聰明的IT人員經常創建高效率的虛擬化策略來完成私有云的性能監控。
持續收集私有云性能監控數據 私有云主要是關于流程、自動化、人員管理和整合集中等內容。一些私有云使用虛擬化技術和物理宿主機,所以無論采用哪種工具完成性能監控,您需要收集來自于各種宿主機的數據。持續地收集數據而不是僅在整合、集中或故障診斷時才去做。 通常,用戶和監控系統在問題剛剛產生時不會察覺。只有當問題變得嚴重足以影響到用戶使用后才被發現。通過歷史數據,您可以看到問題產生的時間;蛟SCPU負載的問題在一周前的病毒掃描程序升級完成后就產生了。您可以在歷史數據中輕松發現這點,幫助解決問題的人員快速地定位、修復和恢復到高效狀態。 私有云性能監控還帶來一些非技術性收益。您希望集中的一些服務,例如各部門的Web服務器通常不會設置很多的監控。當服務宕機或變慢時,很多部門的做法是簡單重啟。而這種做法是錯誤的。 如果您推動集中服務的理由是通過監控提高可用性和性能,那么各部門很難拒絕。畢竟,您做了正確的事情,而他們沒有。 透明化 透明化也很重要。把云性能數據開放給開發人員和應用管理員,這樣他們可以看到自己所做配置選擇對性能的影響。對基于虛擬化架構的云而言,類似的一些選擇可能對應用本身是有益的,但卻影響到整個環境的性能。IT系統也講究平衡,包括性能在內。某個應用的性能目標應該用文檔記錄,這樣可以盡力去達到而不是超出。超出這些目標需要額外的資金和時間投入。 選擇相關聯的數據采集點對私有云性能進行監控 當部署私有云性能監控系統時,盡可能多地從正確的地點收集相關聯維度的數據。不要從虛擬化環境中某臺虛擬機中獲取關于CPU負載的信息,結果會是錯誤的。您應該從虛擬化平臺角度去獲取準確數據。同樣,內存使用率、網絡I/O、存儲I/O等等也是這樣。 相反,應用性能最好從單個服務器的級別上判斷,可以幫助識別某個集群成員是否已超負荷。 另外,盡可能地以最小粒度收集數據。很多性能監控工具以5、15或60分鐘的平均數據作為歷史數據,這體現到圖形上就使得峰值數據變得平緩。這種平緩帶來一些假象,因為峰值數據意義重大。 當應用響應工作時,不是慢慢地進行,而是調用所有它可用的CPU資源盡可能快速地完成,在圖形上體現為100%的CPU使用率峰值。峰值時間的長度非常重要,這通常代表最終用戶對應用快慢的感受。換句話說,是請求和結果之間的延遲時間。 如果性能監控軟件把這些峰值跟空閑時間進行了平均,可能看到的是50%的CPU使用率,從而得到錯誤的結論認為性能可以滿足。網絡和存儲連接的工作方式類似。假設某一分鐘100%的使用率,而下一分鐘為0%,那么平均使用率為50%,看起來不是什么問題。這種情況下通過高解析度軟件進行深入分析很有必要。當然保留大量的數據和收集高精度數據的過程也會消耗CPU、內存、網絡和存儲資源,所以您需要找到平衡點。 本文出自:億恩科技【www.laynepeng.cn】 |