排除AIX服務器故障的八大步驟(1) |
發布時間: 2012/8/7 17:52:15 |
問題1:服務器更大,而計算能力卻降低了 當時,我需要把一個AIX5.3LPAR從基于POWER4?的老式IBMpSeries?p670服務器遷移到基于POWER6?的全新的 pSeriesp570服務器上。老的服務器資源不足(使用WorkloadManager管理服務器上主要應用程序的資源),因此新硬件上新的動態處理器資源應該會提供我需要的計算能力。我對這個LPAR執行了mksysb,然后使用NetworkInstallationManager在新硬件上恢復它并通過SAN磁盤映射它。 我啟動了這個LPAR,直到啟動應用程序之前看起來一切順利。突然之間,用戶開始打電話來了。他們根本無法訪問自己的產品了。當我登錄時,發現服務器完全是空閑的。服務器上根本沒有消耗資源很多的進程。用戶為什么會遇到問題? 問題2:出故障的硬盤無法解除鏡像 我的一臺服務器具有鏡像的root磁盤。有一天,錯誤報告指出在其中一個磁盤上壞塊無法重新定位。我知道這是硬件故障的先兆,所以開始解除鏡像。但是,服務器說無法完全解除鏡像,因為其中一個邏輯卷只有一個好拷貝,它就在出故障的磁盤上。我應該怎么解決這個問題并更換硬件? 故障排除過程 記住這兩個示例問題,現在看看解決它們的過程。 步驟1:別亂動 一旦發現有麻煩了,最明智的舉動就是別亂動。就像印地安納·瓊斯在“奪寶奇兵”中一樣,如果發現踩上地板就會有飛鏢射向您,那么就停在原地,不要繼續前進了。更多的變動只會讓問題復雜化,可能把情況弄得更糟。當一個問題影響系統正常運行時,不得不解決多個問題是沒有意義的。 對于第一個示例問題,我讓用戶馬上退出系統,然后我終止應用程序。我知道在性能很差時用戶的查詢和輸入會中斷,這可能會破壞他們的數據,在我檢查系統之前不希望他們的環境有進一步的變動。盡管用戶不愿意聽到他們現在不能使用新的服務器,但是知道我正在查找問題的原因,他們會很高興。另外,這讓我有時間按自己的方式執行其他故障排除步驟。 步驟2:先從基本命令開始,然后增加復雜性 在我學功夫時,聽到了一位二級黑帶在公共汽車站制伏小偷的故事。同學們都想知道她用哪一招放倒了進攻者。是金虎式嗎?還是八卦掌中的圈掌?我們甚至想像她非常厲害,用醉八仙把對方放倒了。結果都不是:她使用的是白帶在班上最初學習的技術之一-肘擊前胸,再拳擊鼻子。 AIX提供了用于檢查服務器的各個方面的命令,包括硬件和軟件。即使是最基本的命令也會為分析問題提供很好的基礎。當信息不夠或仍然有些東西表現不正常時,可以開始嘗試更復雜、更強大的工具。但是,應該從最簡單的命令和想法開始,然后再使用更強大的工具。 對于第二個示例問題,我先通過查看errpt輸出尋找硬件問題,然后使用unmirrorvg命令-嘗試解除鏡像的簡單但強大的工具-而不是對磁盤上的每個邏輯卷運行rmlvcopy.當我發現有一個邏輯卷無法刪除時,就使用lspv、lsvg和migratepv等其他基本命令收集信息。我嘗試用extendvg和mirrorvg在另一個磁盤上創建卷組的另一個拷貝。這仍然留下了一些舊的分區,所以我更進一步,用syncvg和 synclvdom協調ObjectDataManager與服務器。最后,我用migratelp嘗試把各個邏輯分區轉移出這個磁盤。不幸的是,這些工具都不奏效,但是它們提供了大量信息。 本文出自:億恩科技【www.laynepeng.cn】 |