故障描述
Web服务启动之后,服务器CPU使用率瞬间飙升到90%。此时接口服务频繁超时。
故障处理
由于短时间无法定位和修复问题,以免影响终端用户操作体验,采取了回滚操作。
故障问题分析
一般一个应用CPU使用率很高,通常都是由于程序中的死循环引起的。
故障问题定位过程
####1、使用 top 命令查看占用 CPU 较高的进程
可以看到 PID 为 26484 这个进程的 CPU 占用率最高。
####2、定位具体进程 使用 'ps aux | grep 26484' 或 'ps -ef | grep 26484' 命令,定位到具体的进程
####3、查看进程下的线程 CPU 占用情况 使用 'ps -mp 26484 -o THREAD,tid,time | sort -rn' 命令打印出该进程下的线程占用 CPU 情况
可以看到 TID 为 26762 的这个线程占用 CPU 最高 ####4、线程 ID 转换为 16 进制格式 使用 'printf "%x\n" 26762' 命令将线程 ID 转换为 16 进制格式, 以方便下一步查询线程堆栈信息
####5、查看线程堆栈信息 使用 'jstack 26484 |grep 688a -A 30' 命令打印出高 CPU 占用的线程 26762 的堆栈信息, 如下:
从上面的输出结果就可以定位到具体出问题的代码, 最后就是仔细分析代码,解决问题。