数据说话——VoIP测试方法和测试数据分析
||2005-01-30
p>
p>
经过近一个季度的紧张测试,我们现在可以告诉您,什么才是一个完整的VoIP。而在这之前,我们的工程师面对VoIP的测试,还像那个第一个拿起刀叉面对螃蟹的人,充满期待却又诚惶诚恐。技术世界和我们的现实世界一样,有理想的状态,有复杂的环境,有妥协,也有令人兴奋的亮点。
根据我们最早的测试技术安排,我们要测试目前的VoIP系统的组网能力,必须要架设一个网络,要检查架设这样一个VoIP网络的所有部件是否已经完全具备?其构成的网络是否完整?那么搭建一个可以通话的VoIP系统是测试的第一步
我们按照VoIP组网的原理,构建了这样一个基本网络,其网络结构如图4所示。我们用软交换的概念来描述网络上的设备,在这个网络上,MG(媒体网关)和MGC(媒体网关控制器)是关键的VoIP网络元素。这些网络元素可以是支持H.323、MGCP、H.248或者SIP的实体。本文中提到的MG和MGC不具体指某一个设备,本次测试正是针对这两类设备进行,测试的主要内容也围绕着这两类设备展开。测试从模拟话音开始,然后延伸到PSTN网络,再到IP网络,最后回到模拟话机的被叫方。在这样一个完整通话过程中,测试MG以及MGC的信令互操作性以及设备处理信令的能力。图5是测试系统结构原理图。
一、 测试设备的呼叫建立能力
饱和呼叫量可以用两个参数来表示:忙时呼叫量(BHCA)或者每秒建立呼叫数量(CAPS)。BHCA是忙时呼叫量的缩写,主要测试内容为:在一小时之内,系统能建立通话连接的绝对数量值。测试结果是一个极端能力的反映,它反映了设备的软件和硬件的综合性能。如果您的企业是一个有巨大话务量需求的企业,这个参数应该是一个最重要的参考指标。但我们感觉到,幸运的是,企业用户的实际应用需求都远远低于测试设备所提供的能力。
我们建立100~300个用户,让他们每秒建立一个呼叫,呼叫持续一秒钟,挂机后等待一秒钟再进行第二次呼叫。这样的呼叫在数百条通路中同时进行,以致我们都很担心被测设备是否能挺过一小时。最后所有的被测设备都交出了很好的答卷,BHCA值最后体现为CAPS(每秒建立呼叫数量),CAPS乘以3600就是BHCA了。
二、呼叫长时保持能力
我们设计了一个呼叫测试。首先用被测设备搭建起一个完整的VoIP系统,从模拟的语音开始,通过媒体网关,再通过媒体网关控制器到另一个媒体网关,最后从被叫方的一部模拟电话出来。
这样的呼叫建立之后,保持一个小时,以验证被测设备的工作稳定性。掉线是人们谈到VoIP应用时常提到的一个问题,呼叫保持能力的测试是希望验证系统的稳定性和健壮性。
在更加严格的电信入网测试中,呼叫保持测试常常进行24小时甚至更长时间。而影响呼叫保持的因素很多,在VoIP应用中,网络的客观环境极为重要。在实际的Internet中,网络数据包所经过的路由并不由数据的发送和接收端决定,在网络出现阻塞的时候就有出现断线的可能。
共享数据网络带宽的VoIP系统就更容易出现这样的问题。内部的VoIP通话可以通过支持QoS机制的网络交换设备来保证,而广域网范围的VoIP稳定性还需要依靠运营商网络的支持和发展。根据我们使用的效果来看,Internet上的VoIP服务在不大的话务量情况下还是非常好的,甚至有优于传统电话质量的表现。
因为在软交换架构中,语音的业务数据和呼叫的控制信令是分离的。我们还用Abacus5000模拟了MG,测试了几种MGC类设备。在测试的网络环境中,它们的呼叫保持测试表现都极为顺利。
另外,VoIP呼叫的建立首先是一个呼叫信令的交互过程。网关和网关、网关和控制器之间的信令交互响应速度,是考察一个呼叫建立的重要指标。我们的测试同样展示了系统的呼叫建立时间。
三、通话语音质量测试
话音质量是人们对VoIP应用的一大关注点。以前怀疑VoIP的人们提的最多的还是话音质量,而制约话音质量的因素非常多,同时也非常复杂。图6示出在一个复杂网络中,影响VoIP语音质量的几乎所有的因素。
我们设计采用模拟电话的原因,是因为我们的耳朵其实都是模拟的,对吗?我们只能接受模拟信号。
然后,我们根据ITU的P.861标准来播放一段语音信号,主叫方和被叫方都由呼叫模拟器Abacus5000来模拟。它会对比发出和接收到的那些模拟通路的音频信号,然后给出一个标注的语音质量值。
单纯考察语音质量,我们采用PSQM值和MOS值。这是通信行业判断通话质量的标准,PSQM是一个客观的采集数据比对值,而MOS是考虑主观因素的参考值。
ITU-T建议的P.800标准提出了MOS(Mean Objection Score)的方法。即请40 ~ 60 位有代表性的人士来听一段相同的语音样本,然后对该样本经过IP电话传输后的语音质量进行投票评价。随着语音因语言、年龄、性别的变化,得分亦被赋予不同的意义。这是一种纯粹主观的定性测量。ITU-T在非常宽的听觉范围内,选取不同年龄、性别和语言组别的相同得分,作出语音质量的判别标准:5为最佳; 4为好(4.5~4.0 =可收费电信级) ;3为中级(4.0~3.5=可通话通信级) ;2为较差 (3.5~2.5=可建立连接级) ;1为差。很显然,MOS方法是一种模糊的评估方法,其测试结果很难对IP电话系统的改进和不同IP电话设备之间性能的比较作出有实际意义的判别。因此ITU-T在标准建议P.861中又提出了PSQM(Perceptual Speech Quality Measurement)方法。
PSQM仍以MOS的5个级别作为客观标准,所不同的是其对每一个级别都以百分比的方式作出了“差”/“最差”(%PoW,Percent Poor or Worse)和“好/最好”(%GoB,Percent Good or Better)的进一步描述。根据P.861提出的PSQM方法,IP电话的测试开始摆脱原始的人类主观评估,而开始使用计算机产生的波形文件(Wave File),通过比较其通过IP电话网传输前后的变化计算出PSQM中相对应的级别及好坏程度。
我们测试的设备的MOS值,都在4.5以上;而PSQM值均在0.2到0.3之间。这都达到了电信级设备的评价标准。因为我们的测试环境相对单纯,在今后我们还会开展真实环境测试,让大家更加了解VoIP的发展和现状。
对语音质量的判断,还有很多参数可以体现。包括网络延时、语音延迟、回声、RTP数据祯丢失率等等。参测的所有近20台设备都交出了令人满意的答卷。
您可以在下面的文章中看到四套系统的数据表现,它们的成绩可以说都是令人满意的。我们测试工程师有这么一句格言:设备的真实表现不可能比测试结果更好。您在实际使用中还可能遇到这样和那样的问题,这不是我们在给您的应用泼冷水,而是希望告诉您,任何一套优秀的系统,需要厂商和用户的工程师们不断努力才能表现得更出色。
在征集产品的过程中,很多厂商表达了对参与这次评测的兴趣,但我们有选择性地征集了四家厂商的近20款设备,它们构成了四套有着自己鲜明特点的VoIP系统。我们的工程师在这次中国首次的媒体VoIP测试过程中也向厂商的技术人员学到了很多东西。在此我们向北京共业科技有限公司、港湾网络公司、苏迪思公司、中兴通讯有限公司和思博伦公司对我们的支持表示感谢
责编:admin
转载请注明来源:数据说话——VoIP测试方法和测试数据分析
噢!评论已关闭。