Event ID: 1019

Event Type: Warning

Event Source: ClusSvc

Event Category: Log Mgr

   
    Description: The log file Q:MSCSquolog.log was found to be corrupt. An attempt will be made to reset it, or you should use the Cluster Administrator utility to adjust the maximum size.
  
    除以上比較明顯描述的錯誤外,事件日志中還可以發(fā)現(xiàn)以下記錄:
  
    Event ID:1067;Event ID: 1148
  
    解決方法
  
    從事件日志分析,quorum.log 文件出現(xiàn)了錯誤,導致了系統(tǒng)集群服務(wù)不能正常啟動,解決問題的關(guān)鍵在于能夠把quorum.log文件恢復(fù)到一個初始化狀態(tài),從而可以使系統(tǒng)集群服務(wù)正常啟動。
  
    解決步驟
  
    1.通過-ResetQuorumLog參數(shù)來啟動Cluster,以達到初始化quorum.log的目的。
  
    1)打開控制面板,雙擊“服務(wù)”(Service)圖標;
  
    2)在服務(wù)管理器中找到Cluster service,右鍵點擊“屬性”(properties);
  
    3)在啟動變量(Start Parameters)空白框中寫入-ResetQuorumLog,啟動Cluster服務(wù)。
  
    2.如果以上方法無法啟動Cluster,則通過-NoQuorumLogging參數(shù)停止Cluster。
  
    步驟1不能正常啟動Cluster服務(wù),說明需要完全重建檢查點和quorum.log文件,可以按以下步驟實施:
  
    1)打開控制面板,點擊“服務(wù)”(Service)圖標;
  
    2)在服務(wù)管理器中找到Cluster service,右鍵點擊“屬性”(properties);
  
    3)在啟動變量(Start Parameters)空白框中寫入-NoQuorumLogging,啟動Cluster服務(wù)。
  
    然后,再次用-ResetQuorumLog參數(shù)來啟動Cluster:
  
    4)打開共享磁盤柜,找到mscs目錄,刪除它;
  
    5)在服務(wù)管理器中找到Cluster service,右鍵點擊“停止”,將Cluster服務(wù)停止;
  
    6)在服務(wù)管理器中找到Cluster service,右鍵點擊“屬性”(properties);
  
    7)在啟動變量(Start Parameters)空白框中寫入-ResetQuorumLog,再次啟動Cluster服務(wù);
  
    8)此時Cluster服務(wù)將正常運行,主節(jié)點將可成功訪問共享資源。
  
    3.若此時集群中第二節(jié)點處在故障狀態(tài),可采用以下方法來解決。
  
    1)在開始選單的管理工具中打開集群管理器;
  
    2)點擊出現(xiàn)故障的節(jié)點, 右擊“evict”,使故障節(jié)點退出集群資源;
  
    3)在第二節(jié)點上重新安裝Cluster服務(wù),再次加入集群資源。
  
  案例思考
  
    集群的每個節(jié)點都在其本地計算機上維護一個集群服務(wù)數(shù)據(jù)庫的拷貝。這個拷貝位于%SystemRoot%ClusterClusdb。當集群服務(wù)在一個節(jié)點上首次啟動時,一個集群數(shù)據(jù)庫的更新數(shù)據(jù)將注冊到注冊表的一個蜂巢中(HKEY_LOCAL_MACHINECluster)。當重新啟動集群服務(wù)器時,一個存在的Cluster注冊表將被使用。
  
    集群服務(wù)將Cluster的注冊信息也保存在共享資源的一個文件中。檢查點文件位于MscsChkxxx.tmp,每次檢查點文件生效,都將把有關(guān)信息記錄入MscsQuolog.log 文件中,以下四類情況將使Cluster服務(wù)產(chǎn)生檢查點:
  
     主節(jié)點轉(zhuǎn)移到另一節(jié)點上;
  
     任何節(jié)點上的Cluster服務(wù)停止;
  
     Quolog.log文件達到了其最大重置尺寸(在Windows 2000中為64KB);
  
     在注冊表HKEY_LOCAL_MACHINECluster QuorumCheckpointInterval中設(shè)定了一個時間間隔,在Windows 2000中設(shè)置為4小時,如果在此時間間隔內(nèi)Cluster沒有任何變化時,也會產(chǎn)生一個檢查點。
  
    此次集群服務(wù)啟動失敗,關(guān)鍵在于Quolog.log文件被破壞,所以此次修復(fù)的關(guān)鍵在于能夠讀取一個正常的Quolog.log文件。筆者采用的方法是:刪除 Mscs目錄下的所有文件,然后設(shè)置參數(shù)-NoQuorumLogging讓Cluster重建Quolog.log文件。這種操作有一定的風險,因為此時集群兩個節(jié)點的狀態(tài)的任何改變將無法被記錄下來,從而也就無法保持兩節(jié)點的一致性
  
    隨著目前Windows 2000 服務(wù)器的大量應(yīng)用,在比較關(guān)鍵性的業(yè)務(wù)平臺上,都使用了基于Windows 2000 Cluster的集群服務(wù)器。集群服務(wù)器在幾乎所有的故障點上都采用了冗余的手段保證系統(tǒng)的可用性。而以下的實例,則是由于Cluster軟件的故障造成了無法對共享磁盤柜進行訪問,也就從事實上導致了服務(wù)的不可用性,這是用冗余手段也難以解決的問題。筆者希望通過對此實例的分析,能帶給大家一些解決集群故障的啟示。
  
    應(yīng)用硬件環(huán)境為兩臺服務(wù)器與一臺RA4100磁盤柜通過光纖HUB組成了一個集群環(huán)境。運行軟件環(huán)境為Microsoft Windows 2000 Advanced Server,使用Windows 2000自帶的Cluster軟件。

分享到

多易

相關(guān)推薦