问题描述:
此前测试服务器负载偏高,其他各项性能指标都正常,未找到原因。提阿里云工单回复正常。
当日CPU频繁达到100%,负载几十,造成服务器瘫痪。
问题原因:
自查未找到原因。做如下尝试:
1.关闭服务器上的自建服务,负载未恢复正常。
2.重新安装系统,选择ubutu18.04版本,负载未恢复正常。
3.阿里云调整了该实例的物理存储,负载未恢复正常。
4.将该实例打包成镜像重新创建实例,负载正常。
5.将该实例重装系统,选择ubutu16版本,负载正常。
最后基本确认该实例上的ubutu18.04系统存在问题。阿里云方告知该系统版本存在bug:
https://www.mail-archive.com/ubuntu-bugs@lists.ubuntu.com/msg5697979.html
但未查清该系统版本在别的实例上为何不会出现负载异常。
解决方案:
调整系统内核版本。负载由平均4以上降低到0.5左右。
1.vim /etc/default/grub
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 4.15.0-55-generic"
2.grep menuentry /boot/grub/grub.cfg 查看启动顺序
3.update-grub
4.reboot