|
故事之二
UPS 电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网
络变慢、数据出错
[症状]今天的病人是一家著名的证券公司。上午 9:45,用户来电请求紧急救援,说
大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门
前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,
且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。
交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将
营业部计算中心的网络设备砸个希巴烂。放下电话直立即直奔该营业部,途中继续用移动电
话了解得知,该网络为 10M 以太网,用户数为 230 个。从卫星接收广播的行情数据,并回
传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络
系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更
新速度偶尔变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种"症状"并不连
续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正
的故障根源。前天参加"第二轮证券系统 Y2K 统一认证测试",顺利通过。利用剩余时间对
硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重
问题。
[诊断过程]用 F683 网络测试仪监测网络 30 秒,观察网络流量为 81%(但网管报告为
0.2%),错误帧 97.6%。错误类型为 Ghosts(占 93%)、FCS 错误(又称 CRC 错误)和 Jabber,
即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般
以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相
连的集线器组电源关断,服务器继续工作,观察错误率降为 87%,仍然很高。重新打开集
线器组电源,用 F43 电源谐波测试仪观察,发现谐波含量严重超标(最高 970mV)。该网络用
一台大型 UPS 电源给所有网络设备供电,测试 UPS 输入电源谐波,约为输出电源谐波含量的
30%,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用 UPS 后,网络恢复正
常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻
象干扰)下降为 1.3%。再次关断集线器组的电源,类型为 Ghosts 的幻象干扰错误率下降为
0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机
的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时 |