公司OA入口 EHR入口 企业邮箱
您现在的位置:首页 > 客服服务 > 常见问题

常见问题

高清互动电视点播故障处理案例

时间:2013-11-01 [ ] 浏览次数: 52237 来源:贵阳市分公司 陈启祥 视力保护色:

贵阳市作为省内“三网融合”首批建设试点城市,而互动点播电视将是“三网融合”的主要电视业务,因此提升有线电视网络技术服务水平,及时准确的排除并解决高清互动的网络故障,对推动公司“三网融合”工作的深化实施将起到至关重要的作用。作为高清互动数据维护的工作人员,当接到故障报修时应及时响应、理清思路、准确判断,抓住要点进而排除网络故障,以确保支撑“三网融合”的顺利实施。在我的实际工作中,几乎每天都在处理网络故障,这使我积累了一些故障排查的宝贵经验。下面,我就一个高清互动电视点播的故障处理案例和业内同仁分享。

故障描述:

2013年10月24日,观山湖区世纪城出现了部分用户不能点播高清互动电视的现象,刚开始是小部分区域不能点播,随着时间的延长,又出现大范围的不能点播,同时在出现故障的区域中检查发现PPOE上网业务不通。

解决思路:

(一)底层设备链路故障排除

首先排除EOC局端、终端设备故障。检查EOC局端与终端数据业务配置是否正确,特别注意是否存在少配置或误删除现象。经现场确认,该EOC局端和EOC终端数据业务配置正确,终端网口运行状态正常,符合高清互动的业务规划数据VLAN,线路信号质量符合要求。由于之前该区域能正常点播,且所有的数据业务正常,不能实现互动点播是突然出现的故障。于是,我们重新更换一台机顶盒,并重新启动搜索一遍,发现任然不能获取IP地址,现场用电脑接机顶盒网口进行PPOE拨号上网,出现错误678,691,故障现象仍然存在,从而排除是终端设备故障。

其次排除ONU数据业务配置故障。登陆OLT服务器系统检查PON口下所对应的ONU数据业务配置是否正确,是否和现场ONU的SN码一致,所配置的数据业务VLAN是否符合公司规划的数据业务VLAN。经现场检查核实,结果完全符合要求,整个链路业务数据正确,ONU运行正常,所对应的EOC局端IP畅通,用户端高清机顶盒指示灯状态连接显示正常,并且该ECO终端也能在EOC局端上显示,符合规划要求,整个链路线路正常,从而排除是ONU数据业务配置故障。

在进行EOC局端、终端设备及ONU数据业务配置故障的排除中,还采用过换件法,准备一台EOC终端、一台EOC局端、一台ONU。每个环节都进行换件尝试的方法,但故障现象仍然存在。在处理过程中,发现故障现象存在区域不断扩大,不能点播和拨号上网的用户在逐步增加,因此,我们立即更换排查思路,考虑上层设备是否存在故障。

(二)上层设备链路故障排除

首先考虑PON以上的设备,从能获取mac地址信息的地方着手,通过对上层设备服务器mac地址的查询分析,及对端口的数据流量包进行检查,发现OLT与上层IP城域网之间存在大量的数据流量包,从而重点检查PON设备OLT与IP城域交换机的数据包来源,检查附带哪些信息,通过这些信息逐一排查到相关设备上去。通过对IP城域网交换机的检查,发现OLT所连接的IP城域网端口数据流量包很大,因此对于PON设备OLT服务器的流量排查,首先检查PON设备OLT的各个PON口流量包情况。由于下行设备是畅通的,只是EOC终端上行无法获取核心路由器DHCP分配的IP地址,所以,此时排查的重点立即转移到PON口的上行流量上。由于在OLT服务器上不能一次查出每个PON口下流量包的大小,唯一的办法就是对每一个PON口的数据流量逐一查看,然后再把OLT上所有PON口的上行流量进行对比。经过检查和对比发现所有PON口中,只有一个PON口的上行数据流量包很大,几乎达到9000Kbps多,虽然查出是流量包的问题,但此时不能立即关闭这个PON口下的数据业务,因为这个PON口下有些用户的互动点播和上网业务是正常的。

为了进一步确定故障,我们开始对这个PON口下的ONU进行逐一排查,在OLT服务器上通过命令显示来看,整个PON口下的ONU共有52个设备,但在这个PON口下也不能一次查询出所有ONU的流量包大小,对于ONU端口的数据流量包也只能进行单个检查,然后再进行对比,把上行流量包大的ONU挑选出来。经过检查对比发现只有一个ONU上行流量为4800kbps左右,在这种情况下,首先考虑的是先把这个流量包异常的ONU激活,并查看该ONU的上行流量包是否有变化,发现上行流量包大小并没有改变。于是,我想到通过远程软重启该ONU设备,使其恢复初始数据,但发现ONU的上行流量包还是没有发生改变。

与此同时,OLT下的PON数据业务、高清互动点播和PPOE上网业务开始出现大面积瘫痪,凡是不能点播的区域,也不能进行上网业务拨号,故障区域正在逐步扩大,给我们带来很大压力。在这种状况下,我的排查思路没有乱,仍然有条不紊的逐一排查,并将排查重点转变到这个ONU链路上。

(三)从ONU链路上获取故障信息

首先对流量包大的ONU进行控制、对ONU的SN码配置作了修改,这样就相当于关闭了这个ONU的数据业务。此时在对OLT服务器上进行PON口数据流量包查看时,发现该PON口的上行数据流量包变小。进一步检查,发现整个OLT的上行数据流量包已经恢复正常范围,上层设备IP城域网交换机所对应的端口流量包也恢复正常接收范围。在现场外接一个EOC终端,通过电脑查看能自动获取IP地址,互动点播及上网业务恢复正常,我们立即对故障区域的用户逐一电话询问,获知均已恢复正常。由此判断,影响业务的问题就是在这个ONU上,但当我们更换一台新的ONU并接上大网时,发现整个PON口上的数据流量包马上又恢复到最初故障,使刚恢复正常业务的用户马上中断。

经进一步检查,发现ONU上带有两台EOC局端,我们首先断开一台EOC局端网线,再进入OLT服务器系统查看PON口,发现PON口数据流量包仍然存在。紧接着,我拔掉另一台EOC局端网线,此时PON口数据流量恢复正常,整个OLT数据流量包也恢复正常。此时,我再把之前断开的EOC局端网线接上ONU,查看整个PON口的数据流量几乎没有变化,其他用户的互动点播业务也能正常运行,进而确定故障出现在一台EOC局端上。

(四)通过EOC局端进行故障解决

经过以上排查,故障范围已经逐步缩小到一台EOC局端链路上。为进一步确认该局端是否正常,我们并没有将这台EOC局端接入大网,而是先更换一台新的局端,再接入大网查看PON口是否还会出现大的流量包。当接入大网时,发现PON口流量突然升高,我们依此断定问题应该在某一个EOC终端链路上。

确定故障问题后,先对分配网络上的分支线路进行断线排查,每断一条线路,我们都会在OLT服务器系统上查看PON口流量并进行对比,在断到最后一条线路时, PON口的上行数据流量包突然降下来,该区域高清互动业务恢复正常,此时故障排出。

故障原因:本次故障是由于其中一个用户终端下所连接的电脑遭到病毒攻击,发出大量的上行广播请求包,通过EOC局端、ONU通道向PON口发送广播报文,且随着广播报文的增加,使故障区域不断扩大,从而导致该区域的其他用户不能进行高清互动业务点播和上网业务。

从以上处理过程可以看出,在“三网融合”业务故障处理的过程中,作为技术支撑人员,首先要熟悉计算机网络应用知识、能准确描述各种环境下的故障现象,且在网络故障排查过程中一定要做到响应及时、思路清晰、沉着冷静、判断精准;其次要熟悉掌握PON业务链路故障排查知识,如:ONU业务的查询、mac地址的查询、PON口流量查询、ONU流量查询等,同时还要熟悉上层设备运作的基本原理、掌握常见的查询命令,如:流量查询,mac地址的查询,IP地址查询、ping应用等命令。此外,还要熟悉掌握ONU、EOC局端、EOC终端(高清机顶盒)业务配置,才能准确判断并排出故障,真正做到“优质高效”的技术支撑服务,为公司实施整体转换、建设数字贵州提供技术保障。

 

责任编辑:刘泽忠