LoadAverage上昇 NFS障害によるI/O滞留

linux

サーバのLoadAverageが急上昇した。ただ、サーバの負荷自体は高くなく安定して稼働している。

サーバの状態

  • LoadAverage
$ w
 13:46:35 up 438 days, 21:02,  4 users,  load average: 5.02, 5.02, 5.00
  • sar
$ sar 1
Linux .x86_64 (server) 	2022年09月20日 	_x86_64_	(6 CPU)

10時57分53秒     CPU     %user     %nice   %system   %iowait    %steal     %idle
10時57分54秒     all      0.00      0.00      0.00      0.00      0.00    100.00
10時57分55秒     all      0.00      0.00      0.00      0.00      0.00    100.00
10時57分56秒     all      0.00      0.00      0.00      0.00      0.00    100.00
10時57分57秒     all      0.00      0.00      0.00      0.00      0.00    100.00
10時57分58秒     all      0.00      0.00      0.00      0.00      0.00    100.00
  • まとめ

LoadAverageが異常な数値を出しているが、CPU負荷は高くないような感じ

原因

LoadAverageが高くなったときに、何が発生したかというと、NFSマウントしているストレージ機器で障害が発生していた。なので、その辺りに原因があると推測。

事象は上記記事でほぼドンピシャでした。ステータスが「D」の状態。STARTも9/18でストレージ障害が発生したタイミングと一致している。

$ ps aux | grep df
USER         PID %CPU %MEM    VSZ   RSS TTY      STAT  START   TIME COMMAND
root     2845851  0.0  0.0  10896  3052 ?        S     9月18   0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root     2845853  0.0  0.0  10896  2972 ?        S     9月18   0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root     2845854  0.0  0.0  10896  2904 ?        S     9月18   0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root     2845855  0.0  0.0  10896  3056 ?        S     9月18   0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root     2845856  0.0  0.0   5728   980 ?        D     9月18   0:00 /bin/df -Pki
root     2845858  0.0  0.0  10896  3008 ?        S     9月18   0:00 sh -c /bin/df -Pki | grep -v /dev/sr0
root     2845859  0.0  0.0   5728   996 ?        D     9月18   0:06 /bin/df -Pki
root     2845861  0.0  0.0   5728  1020 ?        D     9月18   0:00 /bin/df -Pki
root     2845863  0.0  0.0   5728   884 ?        D     9月18   0:04 /bin/df -Pki
root     2845865  0.0  0.0   5728   960 ?        D     9月18   0:10 /bin/df -Pki

対応方法

上記の参考記事ではSTATがDだとプロセスをKILLできないためサーバ再起動しか無いとのことだったが、2008年の記事だったため、試しにプロセスKILLしてみた

$ kill -9 2845856
$ kill -9 2845859
$ kill -9 2845861
$ kill -9 2845863
$ kill -9 2845865

特に問題無くKILLすることができた。

ロードアベレージも下がったのでサーバ再起動せずに済んだ。めでたしめでたし。

$ w
 14:04:38 up 438 days, 21:20,  3 users,  load average: 0.00, 0.77, 2.73

コメント