"HCI" はじめました。

vSAN担当小佐野舞です。VMwareのHCIを広めるため日々活動していきます。

ちょっと待って、再起動

f:id:vmwarekkHCI:20200120162900p:plain


エラーが出ている。何かおかしい。

 

そんなとき、どうしますか?

 

vSAN に限った話ではないのですが、何か問題が発生した際のトラブルシューティングって大切ですよね。

 

vSphere のトラブルシューティングガイドラインはこちら。

トラブルシューティングのガイドライン

概要を抜粋してみると。

症状の特定
考えられる多数の原因により、実装の性能が低下したり性能が発揮されなくなることがあります。効果的なトラブルシューティングの第一歩は、何に問題があるのかを正確に特定することです。

問題領域の定義
問題の症状を切り分けたら、問題領域を定義する必要があります。影響を受け、問題の原因となっている可能性があるソフトウェアまたはハードウェアのコンポーネント、および問題とは関係のないコンポーネントを特定します。

考えられる解決策のテスト
問題がどのような症状であるか、どのコンポーネントが関わるのかを把握したら、問題が解決されるまで解決策を体系的に試します。

 

管理者がすべてを自分自身で行うことは難しいです。

ソフトウェアの問題なのか、ハードウェアなのか、仮想マシンなのか、その上で動いているアプリケーションなのか、複合要因の場合もあります。

エラーから現在何が起こっているのか、そして切り分けを行い、何をすれば解決できるのかを確認して実際に対処していきます。

サポートにご連絡いただく場合も多いかと思います。

 

 

 

vSAN 環境のトラブルシューティングでお願いしたいことが3つあります。

 

焦らない!

慌ててしまいますが、まず現状の把握、健全性のチェックをしましょう。

 

すぐ再起動しない!

SD/USBがブートデバイスとなっている場合、再起動によりRAMディスクに保存されていたログがなくなる可能性があります。

これにより原因究明が難しくなる場合があります。

 

多重障害にさせない!

仮想マシンのストレージポリシー は許容する障害数から決定しています。

例えばFTT=1の場合、1台のホストの障害ではアクセシビリティがあります、仮想マシンは動き続けられます。

もう1台いなくなれば、ポリシーに準拠しない仮想マシンが出てきてしまいます。

人の手でこの状況を作り出さないようにすることは重要です。(他のホストもう1台リブートしちゃえ、えい!とか...しないでください...)

 

 

 

お客様の声として全くvSAN トラブルないよ!と問題なく稼働している環境が多い中、何か起こった時のお願いでした。

よろしくお願いいたします!