数据说话——VoIP测试方法和测试数据分析

客户世界 | 2015年7月12日 | 标杆展示 | 评论已关闭 | 1452

||2005-01-30

　　经过近一个季度的紧张测试，我们现在可以告诉您，什么才是一个完整的VoIP。而在这之前，我们的工程师面对VoIP的测试，还像那个第一个拿起刀叉面对螃蟹的人，充满期待却又诚惶诚恐。技术世界和我们的现实世界一样，有理想的状态，有复杂的环境，有妥协，也有令人兴奋的亮点。

　　根据我们最早的测试技术安排，我们要测试目前的VoIP系统的组网能力，必须要架设一个网络，要检查架设这样一个VoIP网络的所有部件是否已经完全具备？其构成的网络是否完整？那么搭建一个可以通话的VoIP系统是测试的第一步

　　我们按照VoIP组网的原理，构建了这样一个基本网络，其网络结构如图４所示。我们用软交换的概念来描述网络上的设备，在这个网络上，MG（媒体网关）和MGC（媒体网关控制器）是关键的VoIP网络元素。这些网络元素可以是支持H.323、MGCP、H.248或者SIP的实体。本文中提到的MG和MGC不具体指某一个设备，本次测试正是针对这两类设备进行，测试的主要内容也围绕着这两类设备展开。测试从模拟话音开始，然后延伸到PSTN网络，再到IP网络，最后回到模拟话机的被叫方。在这样一个完整通话过程中，测试MG以及MGC的信令互操作性以及设备处理信令的能力。图５是测试系统结构原理图。

一、测试设备的呼叫建立能力

　　我们采用了思博伦公司的Abacus5000型的IP电话测试议。通过模拟网络中的模拟电话终端、IP电话终端、MGC、传真终端等元素，以一个简单的测试结构，来测试被测的语音网关的饱和呼叫量。

　　饱和呼叫量可以用两个参数来表示：忙时呼叫量（BHCA）或者每秒建立呼叫数量（CAPS）。BHCA是忙时呼叫量的缩写，主要测试内容为：在一小时之内，系统能建立通话连接的绝对数量值。测试结果是一个极端能力的反映，它反映了设备的软件和硬件的综合性能。如果您的企业是一个有巨大话务量需求的企业，这个参数应该是一个最重要的参考指标。但我们感觉到，幸运的是，企业用户的实际应用需求都远远低于测试设备所提供的能力。

　　我们建立100～300个用户，让他们每秒建立一个呼叫，呼叫持续一秒钟，挂机后等待一秒钟再进行第二次呼叫。这样的呼叫在数百条通路中同时进行，以致我们都很担心被测设备是否能挺过一小时。最后所有的被测设备都交出了很好的答卷，BHCA值最后体现为CAPS(每秒建立呼叫数量)，CAPS乘以3600就是BHCA了。

二、呼叫长时保持能力

　　我们设计了一个呼叫测试。首先用被测设备搭建起一个完整的VoIP系统，从模拟的语音开始，通过媒体网关，再通过媒体网关控制器到另一个媒体网关，最后从被叫方的一部模拟电话出来。

数据说话——VoIP测试方法和测试数据分析

　　这样的呼叫建立之后，保持一个小时，以验证被测设备的工作稳定性。掉线是人们谈到VoIP应用时常提到的一个问题，呼叫保持能力的测试是希望验证系统的稳定性和健壮性。

　　在更加严格的电信入网测试中，呼叫保持测试常常进行24小时甚至更长时间。而影响呼叫保持的因素很多，在VoIP应用中，网络的客观环境极为重要。在实际的Internet中，网络数据包所经过的路由并不由数据的发送和接收端决定，在网络出现阻塞的时候就有出现断线的可能。

　　共享数据网络带宽的VoIP系统就更容易出现这样的问题。内部的VoIP通话可以通过支持QoS机制的网络交换设备来保证，而广域网范围的VoIP稳定性还需要依靠运营商网络的支持和发展。根据我们使用的效果来看，Internet上的VoIP服务在不大的话务量情况下还是非常好的，甚至有优于传统电话质量的表现。

　　因为在软交换架构中，语音的业务数据和呼叫的控制信令是分离的。我们还用Abacus5000模拟了MG，测试了几种MGC类设备。在测试的网络环境中，它们的呼叫保持测试表现都极为顺利。

　　另外，VoIP呼叫的建立首先是一个呼叫信令的交互过程。网关和网关、网关和控制器之间的信令交互响应速度，是考察一个呼叫建立的重要指标。我们的测试同样展示了系统的呼叫建立时间。

三、通话语音质量测试

　　话音质量是人们对VoIP应用的一大关注点。以前怀疑VoIP的人们提的最多的还是话音质量，而制约话音质量的因素非常多，同时也非常复杂。图6示出在一个复杂网络中，影响VoIP语音质量的几乎所有的因素。

　　我们设计采用模拟电话的原因，是因为我们的耳朵其实都是模拟的，对吗？我们只能接受模拟信号。

数据说话——VoIP测试方法和测试数据分析

　　然后，我们根据ITU的P.861标准来播放一段语音信号，主叫方和被叫方都由呼叫模拟器Abacus5000来模拟。它会对比发出和接收到的那些模拟通路的音频信号，然后给出一个标注的语音质量值。

　　单纯考察语音质量，我们采用PSQM值和MOS值。这是通信行业判断通话质量的标准，PSQM是一个客观的采集数据比对值，而MOS是考虑主观因素的参考值。

　　ITU-T建议的P．800标准提出了MOS（Mean Objection Score）的方法。即请40 ～ 60 位有代表性的人士来听一段相同的语音样本，然后对该样本经过IP电话传输后的语音质量进行投票评价。随着语音因语言、年龄、性别的变化，得分亦被赋予不同的意义。这是一种纯粹主观的定性测量。ITU-T在非常宽的听觉范围内，选取不同年龄、性别和语言组别的相同得分，作出语音质量的判别标准：5为最佳； 4为好（4.5～4.0 ＝可收费电信级）；3为中级（4.0～3.5＝可通话通信级）；2为较差（3.5～2.5＝可建立连接级）；1为差。很显然，MOS方法是一种模糊的评估方法，其测试结果很难对IP电话系统的改进和不同IP电话设备之间性能的比较作出有实际意义的判别。因此ITU-T在标准建议P．861中又提出了PSQM（Perceptual Speech Quality Measurement）方法。

　　PSQM仍以MOS的5个级别作为客观标准，所不同的是其对每一个级别都以百分比的方式作出了“差”/“最差”（%PoW，Percent Poor or Worse）和“好／最好”（%GoB，Percent Good or Better）的进一步描述。根据P．861提出的PSQM方法，IP电话的测试开始摆脱原始的人类主观评估，而开始使用计算机产生的波形文件（Wave File），通过比较其通过IP电话网传输前后的变化计算出PSQM中相对应的级别及好坏程度。

　　我们测试的设备的MOS值，都在4.5以上；而PSQM值均在0.2到0.3之间。这都达到了电信级设备的评价标准。因为我们的测试环境相对单纯，在今后我们还会开展真实环境测试，让大家更加了解VoIP的发展和现状。

　　对语音质量的判断，还有很多参数可以体现。包括网络延时、语音延迟、回声、RTP数据祯丢失率等等。参测的所有近20台设备都交出了令人满意的答卷。

　　您可以在下面的文章中看到四套系统的数据表现，它们的成绩可以说都是令人满意的。我们测试工程师有这么一句格言：设备的真实表现不可能比测试结果更好。您在实际使用中还可能遇到这样和那样的问题，这不是我们在给您的应用泼冷水，而是希望告诉您，任何一套优秀的系统，需要厂商和用户的工程师们不断努力才能表现得更出色。

　　在征集产品的过程中，很多厂商表达了对参与这次评测的兴趣，但我们有选择性地征集了四家厂商的近20款设备，它们构成了四套有着自己鲜明特点的VoIP系统。我们的工程师在这次中国首次的媒体VoIP测试过程中也向厂商的技术人员学到了很多东西。在此我们向北京共业科技有限公司、港湾网络公司、苏迪思公司、中兴通讯有限公司和思博伦公司对我们的支持表示感谢

计算机世界网(www.ccw.com.cn)

责编：admin