サーバのLoadAverageが急上昇した。ただ、サーバの負荷自体は高くなく安定して稼働している。
サーバの状態
- LoadAverage
$ w
13:46:35 up 438 days, 21:02, 4 users, load average: 5.02, 5.02, 5.00
- sar
$ sar 1
Linux .x86_64 (server) 2022年09月20日 _x86_64_ (6 CPU)
10時57分53秒 CPU %user %nice %system %iowait %steal %idle
10時57分54秒 all 0.00 0.00 0.00 0.00 0.00 100.00
10時57分55秒 all 0.00 0.00 0.00 0.00 0.00 100.00
10時57分56秒 all 0.00 0.00 0.00 0.00 0.00 100.00
10時57分57秒 all 0.00 0.00 0.00 0.00 0.00 100.00
10時57分58秒 all 0.00 0.00 0.00 0.00 0.00 100.00
- まとめ
LoadAverageが異常な数値を出しているが、CPU負荷は高くないような感じ
原因
LoadAverageが高くなったときに、何が発生したかというと、NFSマウントしているストレージ機器で障害が発生していた。なので、その辺りに原因があると推測。
事象は上記記事でほぼドンピシャでした。ステータスが「D」の状態。STARTも9/18でストレージ障害が発生したタイミングと一致している。
$ ps aux | grep df
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 2845851 0.0 0.0 10896 3052 ? S 9月18 0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root 2845853 0.0 0.0 10896 2972 ? S 9月18 0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root 2845854 0.0 0.0 10896 2904 ? S 9月18 0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root 2845855 0.0 0.0 10896 3056 ? S 9月18 0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root 2845856 0.0 0.0 5728 980 ? D 9月18 0:00 /bin/df -Pki
root 2845858 0.0 0.0 10896 3008 ? S 9月18 0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root 2845859 0.0 0.0 5728 996 ? D 9月18 0:06 /bin/df -Pki
root 2845861 0.0 0.0 5728 1020 ? D 9月18 0:00 /bin/df -Pki
root 2845863 0.0 0.0 5728 884 ? D 9月18 0:04 /bin/df -Pki
root 2845865 0.0 0.0 5728 960 ? D 9月18 0:10 /bin/df -Pki
対応方法
上記の参考記事ではSTATがDだとプロセスをKILLできないためサーバ再起動しか無いとのことだったが、2008年の記事だったため、試しにプロセスKILLしてみた
$ kill -9 2845856
$ kill -9 2845859
$ kill -9 2845861
$ kill -9 2845863
$ kill -9 2845865
特に問題無くKILLすることができた。
ロードアベレージも下がったのでサーバ再起動せずに済んだ。めでたしめでたし。
$ w
14:04:38 up 438 days, 21:20, 3 users, load average: 0.00, 0.77, 2.73
コメント