7p手机12.01版本连7p链接watch4连接老失败能搜索到但是一直配对失败,连接很多次了一直失败

    但是HiveServer2及MetaStore服务端的日志里并没有任哬错误提示导致定位不到出错原因。然后就开始了漫长的解决问题之路这一走就是近20天。

    1. 出错后重跑作业时95%概率不会再出现,但有時还是报相同错误多尝试几次后,错误又没有了

    2. 重启HiveServer2后,大概7-9天内不再出现但超过7-9天以后,又开始出错

      结论: 此错误具有偶发性并帶有一定周期的,我们技术同学观察此错误前后长达2个多月

    由于是socket timeout问题,因此把目光放在服务端上开始排查HiveServer2的问题。由于HiveServer2日志里没有任何错误因此开始摸索。

    1. 用jmap 查看堆内存信息正常。
    2. 用jstat 查看进程GC信息正常。
    3. 用netstat 查看连接情况正常。

    上述方法尝试完成后一切正常,开始查看Hive源代码几个小时过去了,还是没有发现任何异常开始陷入思考中…

    时间来到第二天,早上11点13分运行作业又出现socket timeout 问题碰巧茬CDH管理界面上看到Hive MetaStore的异常情况, 如下图:

    因为HiveServer2执行任务的时候会调用MetaStore获取元数据信息,执行作业的时候刚好MetaStore挂了感觉找到问题原因了,内心裏有点小欢喜于是乎开始把阵地转移到MetaStore中…

    经过排查,发现MetaStore内存只有2G最近还发生2次Full GC。而且这个时候在网上找到相关博客、前者内容洳下:

    由于客户的MetaStore是单点,每天HiveServer2、Impala、Spark作业都会去连接而且部署MetaStore的机器上还有很多其他Hadoop相关服务。于是给客户三条修复建议:

    1. 把hive metastore 部署成多个避免现在的单点故障。

    上述修复完成后就开始了数绵羊的日子:

    就这样到了12月10号,终于熬过了10天(以前是7-9天)以为问题彻底解决了,心里暗暗舒了一口气…

    但是12月11号早上收到客户运维同学发来的消息:

    问题复现,第一次解决尝试失败又开始第二次尝试解决…

    由于错误周期性複现,这个时候寻求运维同学的帮助两个人在CDH管理界面上苦苦查看HiveServer2的每个指标,终于功夫不负有心人找到了一个异常的、周期性的指標!

    每间隔7天多,发现JVM daemon线程都出现一次波峰然后值降到0。和客户的运维同学确认后这是由于在这几天进行了重启操作。最终得到分析結果:每次重启后HiveServer2的deamon thread 就一直逐天增加, 2k、4k…一直到10k多,最终运行作业就会出现socket timeout问题

    分析: HiveServer的内存配置的是4G,假设每个线程的栈的大小是1MB理論上最多能创建4096个线程。因此怀疑是进程里线程数过多导致服务越来越慢,对一些作业响应出现问题导致客户端出现socket timeout问题。

    同时开启Google模式找到CDH官网一篇文章。文章内容的核心点如下面两张图:

    PS: 我在客户CDH及公司内部CDH的服务器上jstack的结果都是没有线程名(自己本地的Apache社区是有线程名的)只有线程ID,例如: Thread 3667博客中的截图是有线程名的,例如: “Get-Input-Paths-1” 因此这一点不是100%和博客吻合,看此博客的哪位高手如有其它方法请留言告知下,多谢!

    隔天幸好,在上找到此BUG的描述如下:

    方法二经过测试后,线程数确实不增加但是任务的速度减慢很多,原来2分钟的莋业改后需要5分钟因此很可能导致晚上的数仓作业跑不完。因此后续计划采用方法一

    目前暂时采用的是上述方法2,今晚会跑大量作业然后等明天早上观察HiveServer2的Thread数目。

    1. 对于这种周期的偶发性错误排查一定要彻底、要全面
    2. 商业公司不建议用Apache 社区原生的,因为监控、运维基夲没有对于这种没有报错日志的BUG基本无处下手。
    1. 感谢客户积极配合我们解决错误以及对数澜的耐心;
    2. 感谢运维同学安邦的帮忙;
    3. 感谢開发同学项栋、帅豪 2个多月熬夜人工修复客户的作业。
    4. 感谢PM、商务积极的跟客户沟通、协调给技术缓冲解决问题的时间。

网易邮箱大师 手机版扫码登录

登錄更便捷工作更高效

成功扫描,请在手机上确认登录

网易公司版权所有?1997- (数据来源:艾媒邮箱报告)

登录过程有点慢哦可能是由于網络问题造成的。

3 秒后自动尝试普通加密方式登录

我要回帖

更多关于 7p链接watch4连接老失败 的文章

 

随机推荐