RSS订阅追求最高效、最简单的解决方案
你的位置:首页 » 解决方案分享 » 正文

无盘客户机死机问题剖析及排查方案提议

选择字号: 超大 标准 技术小哥 发布于2014年11月01日 属于 解决方案分享 栏目  0个评论 10032人浏览

从网维大师无盘2150开始,大家可能注意到一个问题,以往出入网吧可能会在某一排机器中间看到一台机器蓝屏在那里没有人管,而使用网维无盘2150以后的版本这种情况基本上见不到了,但死机的情况却越来越严重。以前是天天喊着蓝屏,而现在是定屏、死机。为什么?这也是今天给大家分享的一个重要话题。

【为什么死机越来越多,蓝屏却很少见了】

在讨论这个问题之前,我不得不说一下网维大师在这上面耗费的苦心。

因无盘环境下一旦出现蓝屏,以前的处理方式无非是猜、看蓝屏代码继续猜。可能跟什么有关系。然后各种排除发进行测试。这样带来的问题是相当耗费技术人员的时间和精力,而且如果是因为一些系统驱动问题导致的蓝屏还会怪罪到网维无盘的软件头上。所以呢,网维无盘团队为了快速高效的定位到这些蓝屏的问题,开发了一个功能叫做“蓝屏自动捕获dump到无盘服务器”,原理便是当客户机出现蓝屏时,拦截蓝屏的消息转储一个64KB的MiniDump文件,并通过网络传送至无盘服务器。虽然客户机因为某个功能导致蓝屏,但网络模块只要不出故障,操作系统内核一样是允许使用网络进行一些操作的。也就是说你看到的蓝屏只不过是一个界面,后台真正还在运行着整个操作系统的核心。但当因为网络模块引起的蓝屏(如网卡驱动不严谨)会怎么样呢?答案便是这段主题“由蓝屏变死机”,因为网络模块出现故障,无盘核心驱动无法再通过网络将dump文件上传至无盘服务器,这样导致的现象就是死机,没错,一直卡在那里。。。

【为什么一说死机技术就让删温控、删ARP驱动】

网维技术人员给出这些处理方案是有理由的,但并不严谨!

因为温度监控的确会导致客户机网络断开从而导致客户机蓝屏等情况,本人在长沙亲自处理过一个有盘环境AMD x4 740 CPU使用网维大师温度监控功能导致客户机网络连接随机性的断开的情况,最后去掉温度监控的cpuidsdk.dll后再也没有出现过网络连接变红叉的情况。庆幸的他是有盘,而如果是无盘那么死机是肯定的了。

ARP驱动与网络密切相关,网络每一个数据包都会经过ARP驱动,这样以实现精确的智能流控和防止ARP欺骗和发送欺骗包的情况出现。所以,一旦ARP驱动因为某处设计或代码缺陷,会导致致命的蓝屏,在我们看到的就是死机了。也因很难获取这种蓝屏的dump让ARP驱动的开发人员很难去修正。

而我又为什么说网维技术人员给出的这些处理方案不够严谨呢?其实导致死机的原因刚才我们已经说过了,99%是因为系统因为网络方面的故障而蓝屏无法上传dump出现死机。但并不一定全部与ARP驱动和温度监控这两个模块有关。说句不好听的就是在瞎猫碰死耗子。碰上了就碰上了,碰不上就没辙了。

【对于这种无解的死机问题要如何处理】

如果你是一位合格的技术人员,你对自己和网吧业主或你的老板负责,那么请你往下看,如果你是一位 懒惰不堪、不会思考 的技术人员那对不起,浪费你的时间请关闭本网页。

1、关闭无盘抓取蓝屏dump功能。

关闭无盘抓取蓝屏dump功能非常简单,只要将所有客户机的副DNS设置为127.1.0.32即可。抓取蓝屏dump的功能自然会不生效。这样是为了方便我们通过自己的方法捕获FullDump。

2014-10-24_04-05-28副本.png

2、在系统中设定蓝屏不自动重启并转储核心dump

客户机开启超级用户,在系统属性各种,将出现故障自动重启的勾去掉,并设置出现故障时将转储核心完整的dump。如下图:

2014-10-24_04-07-19副本.png

3、使用PCI转1394火线卡抓取核心完整蓝屏dump文件

根据该文章,部署环境抓取蓝屏dump http://www.clxp.net.cn/article/2082.html

4、自己分析或上传到网盘在本站留言我们会帮你分析具体原因

如果你具备自己分析蓝屏dump的能力,那么相信你一定可以自己搞定这些问题。如果你并不懂,可以将dump文件上传到网盘中,然后将网盘的地址在本站留言让我们帮你分析。

【对于随机性的问题该如何捕获dump】

当我把以上方法写下来的时候,有的人可能会毫不客气的说“切,问题是随机的,你怎么查?”,还请我反问一句“随机的就查不了吗?”我给大家举3个例子。

1、在长沙处理有盘AMD 740随机网卡红叉的问题,100多台机器每天可能只出现一台。一个主板厂商的两位技术人员在那里蹲了半个月都没有解决,但是我们过去后就是一个方法一个方法的排除,甚至没有人在那蹲着,没用3天时间就最终把问题解决了,这3天其中有2天还是观察阶段确定后的确没有问题了。靠的是什么?我们密切的关注着网吧的情况,把问题现象告诉到网吧里面的每一个网管,把我的电话留给网管。如果一旦哪台机器出现问题,就立即给我打电话,我去看情况不要重启。当我接到网管电话后首先是去验证我之前排除的可能是否“真的”排除掉了。如果真的排除掉了,那么就继续排除下一个问题,不浪费头脑和精力。不像一部分技术人员,自己已经明明知道这一点没有可能了,却还在那里磨磨唧唧的说,想是不是跟这一点有什么关系。这就是处理问题头脑清晰与否的问题。

2、在江西南昌一家网吧,该网吧出现的问题是随机有个别客户机出现网卡ROM损坏,无法使用网卡引导进入无盘系统,必须要刷BIOS才能解决。维护商技术每天要去给他刷3-6台甚至更多电脑的BIOS。我问了问这种问题,维护商技术只是说,随机出现,说不上哪台就起不来了。我当时想了想如果要处理这个问题,就是想办法能“不断的复现该问题”。只有不断的复现问题我们才能去验证自己的方法是否有效。我抓不到几率可以,那我就5台电脑一起不断的重启测试,直到有机器出现网卡ROM损坏的情况,5台不行10台,网吧夜间几乎没有人上机,我就开一半的机器在那里复现问题并尝试着我的方法。最终我定位到是无盘服务器一块假的PRO1000网卡导致,换掉这块网卡后又开了10台机器,做了个批处理在那不断的重启测试。1天1夜再也没有出问题,最终问题解决。这就是方法!

3、同样是在长沙,一家网吧随机性开机蓝屏,同时开机20台机器必定有一台蓝屏,这也就是5%的几率,已经非常非常高了。我给两台电脑装好1394卡,准备开始抓取dump,不断重启一台电脑尝试复现蓝屏的情况,果然不出我所料,重启不到20次问题果然复现。我最终抓取到了蓝屏dump将问题解决掉了。

以上都是真实案例,我只想告诉大家,问题是否随机不重要,解决他只是时间的问题。就看你是否愿意为此问题付出时间和精力。你要考虑解决了某一个问题后,可能以后类似的问题就不会再发生了。

感谢NetReptile分享该文章 转载请注明:死性不改's Blog ? 无盘客户机死机问题剖析及排查方案提议

打赏

标签:

1

猜你喜欢

右侧2016一起努力
最新发布的文章
最新评论

公告

十年相伴 值得信赖 需要定制开发、购买加速器可以联系 QQ1368762345,微信同号