"HCI" はじめました。

vSAN担当小佐野舞です。VMwareのHCIを広めるため日々活動していきます。

vSAN 7.0 Update 2 詳細編③ プロアクティブに!障害に備えよう。

vSphere の機能であるProactive HA。

vSphere 6.5(2016年)にリリースされ今に至ります。

 

vSAN 環境での利用について、vSAN 7.0 U2でサポートされました...!

vSAN 環境ならではの挙動への理解とハードウェアベンダーさんのプラグインが必要となります。

 

 

 

リリースノート抜粋

VMware vSAN 7.0 Update 2 リリース ノート

  • vSphere Proactive HA サポート。vSAN でプロアクティブ HA がサポートされるようになりました。これにより、ハードウェアの問題を検出してホストをメンテナンス モードに切り替え、プロアクティブな対応を行うことができます。 

 

f:id:vmwarekkHCI:20210421151325p:plain

 

 

vSAN ならではの挙動への理解

vSAN 大好き!なみなさまはおそらくvSphere もっと好き!

vSAN がProactive HA 対応してよかったー!で終わると思います。

が、ここではもう少しvSAN 環境でのProactive HAについて説明していきたいと思います。

まず、Proactive HA とは?

Proactive HA は、特定のハードウェア パートナーと連携して実現した機能です。問題が発生してサービスが中断される 前に、性能が低下したコンポーネントを検出し、影響を受ける vSphere ホストから仮想マシンを退避します。

ハードウェア パートナーは、システム メモリー、ローカル ストレージ、電源装置、冷却ファン、ネットワーク アダプター の健全性の状態を知らせる vCenter Server プラグインを提供しています。ハードウェア コンポーネントの性能が低下 してくると、Proactive HA は危険な状態にあるホストを判断し、「隔離モード」にします。隔離モードでは、アフィニティ ルールや非アフィニティ ルールの違反にならない範囲で仮想マシンが健全なホストに移行されるため、仮想マシンの パフォーマンスに影響することはありません。また、新しい仮想マシンクラスタに追加するときに、問題のあるホスト 以外に配置されます。

ハードウェアと連携してプロアクティブにvSphere 側で障害として認識する前に仮想マシンを移行することができる、という機能です。

障害発生というと、ホストが落ちてしまった=仮想マシンも電源断で落ちることになります。

事前に仮想マシンをライブマイグレーションしていれば、アプリケーションへの影響もありません。

これは共有ストレージが正常な状態であることが前提となります。

共有ストレージのハードウェアの障害予兆を検知して行われるものではありません。

 

ではvSAN 環境でのProactive HAはどのように行われるのでしょうか。

vSAN 環境はサーバにストレージが組み込まれています。

サーバだけで共有ストレージを提供する機能であるvSAN 環境のホスト障害はホスト障害=ストレージ障害ともいえます。

このストレージ部分のデータの退避を行うのがvSAN 環境のProactive HA の最終形態です。

 

f:id:vmwarekkHCI:20210421170127p:plain

プラグインにより障害が予兆検知されました。

これをトリガにProactive HA が始まります。

重大な障害の場合にはメンテナンスモードヘと移行します。

 

f:id:vmwarekkHCI:20210421170203p:plain

対象ホストの上で稼働している仮想マシンが健全なホストへと移行されます。

vSphere 7.0 U1 まではここまでがProactive HA として行われていました。

 

 

f:id:vmwarekkHCI:20210421170224p:plain

そして対象ホストはストレージとしてデータを格納しているので、仮想マシンと同様に他のホストへとデータを退避します。

 

 

メンテナンスモードへ移行するとホストのリソースが全て使用できなくなるため、環境で使用できる/できないの判断が必要だと考えられます。

N+1の構成を取っていてスラックスペースも確保しているので実際の障害時と同じ対応をする

 

上に書いた通り、重大な障害の場合はメンテナンスモードへと移行されますが、3つのオプションがあります。

  • すべての障害を対象とした検疫モード
    仮想マシンのパフォーマンスに影響がないかぎり、部分的に性能が低下したホストを使用せずに、パフォーマンスと可用性のバランスを調整します。
  • 軽度の障害を対象とした検疫モードおよび重大な障害を対象としたメンテナンス モード (混合)
    仮想マシンのパフォーマンスに影響がないかぎり、性能がいくらか低下したホストを使用せずに、パフォーマンスと可用性のバランスを調整します。重大な障害が発生したホストで仮想マシンが実行されないようにします。
  • すべての障害を対象としたメンテナンス モード
    部分的に障害が発生したホストで仮想マシンが実行されないようにします。

 

これらのオプションは主に仮想マシンを想定しているもので、vSAN についてはメンテナンスモードの移行オプションを選択することができます。

 

 

プロアクティブ仮想マシンの退避、ストレージに格納されているデータの退避を行って、最小限のダウンタイムでの運用が可能になりますね!

 

 

 

ハードウェアベンダーさんのプラグイン

各ハードウェアベンダーさんのハードウェア監視ツール(プラグイン)と連携します。

それがこちらです。

どのハードウェア監視/管理ツールもすでに使ったことがある!というものばかりだと思います。

導入の際は使用するハードウェア、そしてベンダーさんのプラグインについてもご確認ください。

 

 

 

 

vSAN 7.0 U2シリーズはこちら

vSphere / vSAN 7.0 Update 2 GA !!! 

vSAN 7.0 Update 2 詳細編① vLCM の進化! 

vSAN 7.0 Update 2 詳細編② 障害時の挙動ってどう変わったの?

vSAN 7.0 Update 2 詳細編③ プロアクティブに!障害に備えよう。 ←今ココ

vSAN 7.0 Update 2 詳細編 ④ ストレッチクラスタの機能強化!