请教xtang,关于qnx4.25系统死机的问题

把我的问题描述一下:

1:在我的qnx网络中有10个节点,node1,node2…node10.
当10个节点都运行起来之后,通常来说2个月左右或者更长或者更短,很随机性的,总会有1个2个 node死机!

2:分析是dead lock造成的问题
死锁的原因可能是:
软件:共享内存,读写文件,qmessage,锁机制等等引起的?
硬件:nand flash等,因为代码总是读写文件,是否因为磁盘碎片等等问题造成的?

3:当死机的时候
死机node 鼠标,键盘不好用了,硬盘处于一直busy红灯的状态
用别的机器使用ftp ,telnet,ping等cmd 连接死机node,根本没有反应!

4:假设当node2 死机了
我在node3上进行操作,输入命令 ls //2, 也没有反应


这个现象可能是由于程序不断的消耗系统资源,导致qnx kernel crash

由于qnx4.25是个微内核机制,很不容易导致死机的,可是我的node确死机了,

请各位高人指教,说说都可能什么原因引起呢,造成这种严重的big bug。

谁遇到过此种情况,请大侠们说明

这个比较麻烦,没有特定的模式。

  1. 看看是不是硬件原因。是不是10个节点任意死机,还是死机总是发生在某几个node上?

  2. 如果是PS2键盘,可以试试按键盘上的CAPS LOCK,看键盘上的指示灯有没有变化。如果有,这告诉你内核还能正常响应中断,只是输出输入被阻住了。

3)如果是硬盘一直busy,最有可能的是驱动在中断处理中出了问题。先看看驱动有什么参数可调,然后看看有没有驱动可以升级。或是换个硬盘试试。

4)想想有什么可以纠错的方法。在node里加监控程序,如果发现node工作不正常就重启什么的。或者是在网络上再增加一个监控node,如果发现不正常的node就强行重启。

  1. 看看是不是硬件原因。是不是10个节点任意死机,还是死机总是发生在某几个node上?
    死机是随机性的,没有规律可言

xtang大哥,驱动全都是qnx系统公司和硬件厂商给的,相关公司技术人员正在检查中,不知道哪块出的问题,这回又要报告一个新的问题!

1:就是我上回说“当node死机的时候,硬盘处于一直busy红灯的状态 ”,我发现当程序在正常运行的时候,这个红灯有时候也会点亮,肯定是这个硬件有点问题!!而且这个硬件做的没有watchdog的功能

2:我们也换过硬盘了,还是出现这种问题!

3:硬盘是ata的接口

到底可能会是什么问题呢?

因为我们用的是qnx4.25 os,会不会相应的驱动没有patch,而该驱动有bug,导致的问题

据我了解现在基本大部分公司都研发qnx6相关的驱动和开发,4.25版本很少用了

xtang加拿大回国过春节了? :smiley:

春节后再来看答案,诸位新年快乐!

感谢xtang半年多来细心讲解,谢谢

春节回来啦,接着问年前的问题!!!

应用软件导致node死机的可能性已经排除掉了

我们的这个设备用了2块IDE硬盘, 其中一个是flash硬盘,现在6成的把握
说是SSD读写的问题, 我们自己也做了个测试程序,把flash硬盘的文件系统直接写崩溃了,但是node就是没死掉.

主板芯片组是:intel 80201DB(intel ICH4)
flashxs是:WDC SSD-3000p

请问xtang和各位大侠有什么高见?