一、现象描述
客户一台IBM P750主机,PowerVM 环境,其中一个VIOC在日常监控中发现CPU使用率有上升趋势。监控显示如下:
![1632467733966309.png image001.png](/data/upload/image/20210924/1632467733966309.png)
![1632467739224958.png image003.png](/data/upload/image/20210924/1632467739224958.png)
二、分析过程
收取snap和nmon日志,分析系统5月7日和5月8日CPU和I/O的性能曲线,对比性能数据发现CPU使用率逐日递增。
db1001 2021/5/7:
![1632467886612662.png image005.png](/data/upload/image/20210924/1632467886612662.png)
![1632468812625656.png image007.png](/data/upload/image/20210924/1632468812625656.png)
db1001 2021/5/8:
![1632468997640470.png image009.png](/data/upload/image/20210924/1632468997640470.png)
![1632468447462857.png image011.png](/data/upload/image/20210924/1632468447462857.png)
与系统管理员沟通得知,该系统最近未做过系统或应用的变更操作。工程师决定通过nmon日志找出占用CPU较多的进程,或者是否有僵尸进程长期占用CPU且不释放,导致了CPU使用率的持续上升。
最终发现PID 5963974 random进程消耗CPU较为明显。
![1632468490571459.png image013.png](/data/upload/image/20210924/1632468490571459.png)
![1632468511454018.png image015.png](/data/upload/image/20210924/1632468511454018.png)
通过分析和查找IBM知识库发现,random消耗CPU问题与已知的APAR IV34794一致。
此APAR没有对应的临时补丁,所以需要升级操作系统SP。
![1632468008253987.png image017.png](/data/upload/image/20210924/1632468008253987.png)
![1632468658312488.png image019.png](/data/upload/image/20210924/1632468658312488.png)
三、经验总结
结合案例现象和对日志的分析可以确认,本次CPU使用率持续上升是系统BUG,建议升级操作系统SP补丁7100-01-07-1316规避random对CPU的消耗问题。
![1632468120909467.png image021.png](/data/upload/image/20210924/1632468120909467.png)
IBM参考网址:IV34794: POSSIBLE INCREASE IN RANDOM KPROC CPU USAGE. APPLIES TO AIX 7100-01 (ibm.com)
如欲了解更多,请登录十大靠谱网赌软件官方网站:82k.azbiahtam.com