突然、何の前触れも無くサーバが再起動した。
状況確認
とあるサーバがいきなり再起動された。物理サーバだと電源周りの接触状況が原因でいきなりサーバが再起動したりするということはあるが、今回発生したサーバは、VMware上で動く仮想サーバ。
・サーバOS:RedHat Enterprize Linux 8
サーバのmesseagesを確認してもいきなり落ちたあと、起動しているようで前触れ的なものは特に残っていない。
直前のサーバ負荷を確認してもmemory(メモリ)、CPU、LoadAverage(ロードアベレージ)、I/O、traffic(トラフィック)、特に不審な点は何もない。
VMware側で何か発生していないか確認しても、「ゲストOSが再起動した」というメッセージ以外特に無く、他のサーバでは一切発生していない。
クラッシュdumpでvmcoreファイルが保存されているのでkernelpanicを起こしてそう
$ ll /var/crash/
合計 0
drwxr-xr-x 2 root root 67 7月 20 02:16 127.0.0.1-2022-07-20-02:16:13
drwxr-xr-x 2 root root 67 9月 30 18:00 127.0.0.1-2022-09-30-18:00:09
$ ll /var/crash/127.0.0.1-2022-09-30-18:00:09
合計 371172
-rw-r--r-- 1 root root 108242 9月 30 18:00 kexec-dmesg.log
-rw------- 1 root root 379869077 9月 30 18:00 vmcore
-rw-r--r-- 1 root root 95781 9月 30 18:00 vmcore-dmesg.txt
とりあえずOSがRHELなので問い合わせできる!!
原因と対応
一言でいうとバグです。詳細は以下。いきなり再起動て。。。えぐいバグだな。。。
直すにはkernelのアップデートが必要。あとアップデート後はサーバの再起動も必要。
$ dnf update kernel
$ reboot
どのバージョンが該当するかの確認方法
##以下は該当してるケース
$ uname -a
Linux hostname 4.18.0-305.3.1.el8_4.x86_64 #1 SMP Mon May 17 10:08:25 EDT 2021 x86_64 x86_64 x86_64 GNU/Linux
おまけ
実は同一事象が1年ほど前に発生してて、解決してたんだけど完全に失念してた。
サーバの再起動が必要なことと、必ずしも起こり得るわけではなかったので、放置してたのがまずかった。これを機に全対象サーバを実施しなくては。。。
コメント