エラー原因と対応方法|Azure ホストサーバーで予期しないエラーが発生し、仮想マシンの自動復旧処理が実行された



Azure Linux 仮想マシンが、ホストサーバーで予期しないエラーが発生したことで、仮想マシンの自動復旧処理が実行されました。ここでは、発生したエラーの内容と対応方法について、紹介します。

発生したエラー情報

エラー情報 - ホストサーバーで予期しないエラー

仮想マシンのリソース正常性の内容を確認すると、以下のエラー情報が表示されていました。

・エラー情報

Redeploying due to host failure (Unplanned) 

申し訳ございません。ホストサーバーで予期しないエラーが発生したため、仮想マシンを使用できず、再デプロイしています。Azure で自動復旧プロセスが開始されました。現在、別のホストにある仮想マシンを起動しています。現時点では、お客様の側で他に必要な操作はありません。


原因

該当する仮想マシンが配置されていたホストサーバーが一時的に不調状態に陥っていたことが原因でした。


対応方法

通常 Azure では、仮想マシンが設置されているホストサーバーにて問題が発生した場合、リカバリ処理として、ホストサーバーの再起動、またはホストサーバーの移し替えを行うサービスヒーリングという機能が実行されます。


今回、このサービスヒーリングにより該当する仮想マシンは、不調が発生したホストサーバーから、他の異なるホストサーバーへ移し替えされるという自動復旧処理が実行され、現在は異なるホストサーバー上にて稼働を再開されていました。

ホスト サーバーの障害


ホストサーバーの不調状態が陥ったことを検知した場合は、Azure 基盤側より仮想マシンに停止処理を実施し、異なるホストサーバー上に移行するといった自動復旧処理が実施されます。したがって、再デプロイされた仮想マシンの状態は、予期しないエラーが発生直前の仮想マシンの状態と同じで問題ないです。

自動復旧に関して|Service Healing - Auto-recovery of Virtual Machines


ただし、

仮想マシンの自動復旧処理後、仮想マシンは起動していましたが、systemd で自動起動設定しているサービスが自動起動しませんでした。これは、仮想マシンの再デプロイ時に強制終了されてしまったことが原因の可能性があります。サービスが自動起動していなかったので、再度、Azure ポータルで仮想マシンを再起動すると、systemd で自動起動設定しているサービスが正常に起動しました。仮想マシンの自動復旧処理後、仮想マシンは起動している状態ですが、再度、Azure ポータルで再起動する必要があるようです。


補足

現在は、今回、発生した予期しないエラーを回避する方法はないようです。


Azure 利用者にて、ホストサーバーの不調状態を検知し、当事象を回避するといったことはできませんが、現在 Azure 側では、機械学習を取り入れ、このようなホストサーバーの問題を事前に検知し、問題 (再起動) が発生する前に異なるホストサーバー上に移行できるよう努めており、今後の機能改善となる可能性があります。


Scheduled Events で仮想マシン ハードウェアの性能低下を検出




スポンサーリンク

0 件のコメント :

コメントを投稿