Hive 子进程死循环问题排查

作者 : 开心源码 本文共742个字,预计阅读时间需要2分钟 发布时间: 2022-05-11 共115人阅读

线上有个任务失败了,查看工作机器上运行的进程情况,有个进程比较陌生,如下图


查看进程关系,能看到这是hive起的一个子进程,如下图
用top命令查看cpu 用情况,能看到1193这个线程cpu占使用总是接近100%,如下图
用jstack命令,查看线程状态
看样子是在读取conf 文件,没有什么异常。然而过了一会儿再看这个状态,线程栈没有丝毫变化。而cpu用依然接近100%。一般来说这是进入死循环了。重试那个hive命令,发现问题无法重现,排除了conf文件的配置问题。用strace命令查看系统调使用情况
发现也没有系统调使用,确认是在使用户态。那么应该就是代码中的bug,查看DefferredDocumentImpl.getNodeExtra 函数的代码,然而并没有循环。
这就很奇怪了,看getNodeExtra函数的代码,思来想去也不可可以进入死循环。难道是内存漏洞引起的指令指针被改写,导致执行到莫名其妙的地方去了?这个时候我就希望看到1193这个线程现在在执行什么指令,总之应该不是getNodeExtra这个函数。那么jstack可以不可以输出这个信息呢。jstack –help看一下
尽管不是我想要的具体在执行什么指令,不过也许问题的确出在本地方法栈呢。试一下
看到问题真的出在本地方法,搜了一下关键字,找到了JDK的patch:https://bugs.openjdk.java.net/browse/JDK-8153134

这个问题的详细形容:https://marc.info/?l=openjdk-hotspot-compiler-dev&m=147625599902638&w=2

可见这是一个小概率的并发问题,因为我们线上集群也是第一次出现,决定暂不解决,直接重试任务就可。

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Hive 子进程死循环问题排查

发表回复