"HCI" はじめました。

vSAN担当小佐野舞です。VMwareのHCIを広めるため日々活動していきます。

VMware vSAN 6.7U1 って今どうなってるの? ③ 障害復旧編

何かあったときも安心!

  • vCenter アラーム 
  • 健全性チェック
  • 再同期トラフィックの動的管理
  • DDH (Degraded Device Handling)

 

大きく分けると障害は物理障害(ハードウェア)と論理障害(ソフトウェア)の2つがあります。
(ここでは仮想マシン仮想マシン上のアプリケーションではなく、vSphere の世界での障害を意味します。)

物理障害の場合はハードウェアの交換やディスクの交換、論理障害の場合はKBに従いワークアラウンドを実施、パッチの適用、サポートへの問い合わせなどの対応が必要となります。

適切な対応するために障害の原因の特定する第一歩としてアラームの活用は重要です。

 

vSAN を障害時の挙動については過去ポストを参照ください。

モノは壊れるシリーズ①- HCIの障害って?

モノは壊れるシリーズ②- HWコンポーネントごとの影響範囲

モノは壊れるシリーズ③- ハイブリッドとオールフラッシュ

 

 

  • vCenter アラーム

デフォルトの vSAN アラームの使用

vCenter で構築して、vCenter で管理する。

次の項目のvSAN Health Service のアラームも定義されています。

デフォルトで有効になっているので、設定は不要です。

f:id:vmwarekkHCI:20190805113159p:plain

 

  • vSAN 健全性 (vSAN Health Service) 

運用管理編でもちらりと紹介した健全性チェックについて、障害の観点からみていきたいと思います。

6.0時代はこの健全性チェックを行うために、vSAN Health Check プラグインをインストールする必要がありましたがデフォルトでvCenter に組み込まれています。 

vSAN 健全性チェック情報 (2114803)

項目が多いのですが、vSAN の全ての健全性の状態をチェックできます。

特に障害関連のものをピックアップすると。

ネットワーク

クラスタ全体のホストに関わる問題ですが、特にvSAN ネットワークが正常に動作しているか確認します。

 

物理ディスク

操作の健全性

vSAN クラスタの全てのホストに対して物理ディスクが正常に動作しているかを確認します。

 

クラスタ

vSAN のCLOMD 稼働状態

vSAN のクラスタとして各ホストで動くサービスが正常に動作していることを監視します。

 

データ

vSAN オブジェクトの健全性

データストアに格納されている全てのvSAN オブジェクトのステータスを確認します。

 

制限

1件の追加ホスト障害後

日本語が少しわかりにくいので追加でわかりやすく一言で説明すると。

クラスタを所属するホストがマイナス1台となった時、データが入りきるか、を表しています。 

障害が発生した場合でもポリシーで決めた許容する障害数を超えなければデータは保全されており、自動的に再同期が開始されます。

 

 

vSAN のアーキテクチャとして物理ディスクのRAIDやLUNといった概念ではなく、仮想マシン単位(仮想ディスク単位)での冗長性の担保となります。

オブジェクトがストレージポリシーで決めたルールと異なっている場合、再構築/再同期が行われます。

 

6.6.1まで 

仮想マシンの遅延が100msに達した場合、50ms以下になるまで再同期の帯域を減らして仮想マシンのI/Oに割り当てます。
仮想マシンの遅延をトリガーとして再同期の帯域制限を行なっていました。

 

6.7から
根本的にアプローチが変わりました。
トラフィック タイプごとに専用のキューがあり、それぞれのI/Oトラフィックを適切にコントロールします。

仮想マシンのI/Oが遅い、再同期に時間がかかりすぎるという問題を解消しました。
Congestion Signalを用いて使用可能な帯域を計算
再同期が発生している場合、使用可能な帯域の中で再同期は20%、仮想マシンは80%を割り当てられます。

 

帯域の使い方が賢く、自動的に行われるようになりました!

 

 

  • DDH (Degraded Device Handling)

ストレージあるあるでよくあげられることにディスク半死状態があります。

サーバ側から使用できないにも関わらず、ストレージ側では障害と判断されずディスクを切り離すことができないままとなる状態です。

さらに別ディスクで障害が起こってしまうと2重障害となり最悪データロストの可能性も...

このDDH(Degraded Device Handling)ではデバイスが正常に機能しているかどうかを確認し、必要に応じて自動的に事前に切り離しを行う機能です。

このDDHはvSAN 6.1から導入されていますが、vSAN 6.7 になってより賢くなりました。

 

vSAN 6.1でのDDH

書き込み、読み取り遅延が過剰に大きくなっているかを監視していました。

ドライブの平均遅延が10分間で50ミリ秒を超えた場合、その遅延が発生しているドライブをアンマウントします。

ホストの障害と同様に指定された再同期開始時間(デフォルト60分)経過すると、アンマウントされたドライブ内のコンポーネントの再同期が開始されます。

バイスの障害ではなく、一時的に遅延が大きくなった場合にも動作してしまうことが多くありました。

 

最新バージョンでのDDH

一時的な問題によりアンマウントされることが大きな問題となったため、監視される項目が追加、変更されています。

読み取り遅延が大きくなっただけではディスクのアンマウントはしません。

ハイブリッドモデルは500ミリ秒、オールフラッシュは200ミリ秒をランダムに指定された10分間の書き込み遅延を監視します。

キャパシティデバイスの書き込み遅延は6時間に4回閾値を超えるかどうかで判断されます。

バイスの中にあるコンポーネントがどのようなステータスにあるのか確認が行われ、再同期開始待ち時間に従い一定時間待つか、すぐに再同期が開始されるか判断されます。

もちろんSMARTによる監視を用いてデバイスのアンマウントも行われます。

 

 

ストレージポリシーで仮想マシンを保護しているので仮想マシンの稼働には影響がない部分にもなりますが、障害が発生したらどうすれば良いのか備えておくことは大切です。

安定した運用を助ける様々な監視機能や対応が追加され、より安心してお使いいただけるvSAN 6.7 となっております!

 

 

VMware vSAN 6.7U1 って今どうなってるの? ① サマリ

VMware vSAN 6.7U1 って今どうなってるの? ② 運用管理編

VMware vSAN 6.7U1 って今どうなってるの? ③ 障害復旧編

VMware vSAN 6.7U1 って今どうなってるの? ④ 性能編

VMware vSAN 6.7U1 って今どうなってるの? ⑤ 導入準備編