エラーが出ている。何かおかしい。
そんなとき、どうしますか?
vSAN に限った話ではないのですが、何か問題が発生した際のトラブルシューティングって大切ですよね。
vSphere のトラブルシューティングのガイドラインはこちら。
概要を抜粋してみると。
症状の特定
考えられる多数の原因により、実装の性能が低下したり性能が発揮されなくなることがあります。効果的なトラブルシューティングの第一歩は、何に問題があるのかを正確に特定することです。
問題領域の定義
問題の症状を切り分けたら、問題領域を定義する必要があります。影響を受け、問題の原因となっている可能性があるソフトウェアまたはハードウェアのコンポーネント、および問題とは関係のないコンポーネントを特定します。
考えられる解決策のテスト
問題がどのような症状であるか、どのコンポーネントが関わるのかを把握したら、問題が解決されるまで解決策を体系的に試します。
管理者がすべてを自分自身で行うことは難しいです。
ソフトウェアの問題なのか、ハードウェアなのか、仮想マシンなのか、その上で動いているアプリケーションなのか、複合要因の場合もあります。
エラーから現在何が起こっているのか、そして切り分けを行い、何をすれば解決できるのかを確認して実際に対処していきます。
サポートにご連絡いただく場合も多いかと思います。
vSAN 環境のトラブルシューティングでお願いしたいことが3つあります。
焦らない!
慌ててしまいますが、まず現状の把握、健全性のチェックをしましょう。
すぐ再起動しない!
SD/USBがブートデバイスとなっている場合、再起動によりRAMディスクに保存されていたログがなくなる可能性があります。
これにより原因究明が難しくなる場合があります。
多重障害にさせない!
仮想マシンのストレージポリシー は許容する障害数から決定しています。
例えばFTT=1の場合、1台のホストの障害ではアクセシビリティがあります、仮想マシンは動き続けられます。
もう1台いなくなれば、ポリシーに準拠しない仮想マシンが出てきてしまいます。
人の手でこの状況を作り出さないようにすることは重要です。(他のホストもう1台リブートしちゃえ、えい!とか...しないでください...)
お客様の声として全くvSAN トラブルないよ!と問題なく稼働している環境が多い中、何か起こった時のお願いでした。
よろしくお願いいたします!