2005年语音技术产业发展展望

    |     2015年7月12日   |   文库   |     评论已关闭   |    1077

||2004-11-20


语音技术,引无数英雄竞折

  语音是人类最本能、最方便的信息交流方式,它是后来文字语言的基础。

  语音在人类进化中有着独特的作用,它的作用并不亚于直立行走和工具的使用。语音语言的使用,使人类在进化中获得了其他动物所无法比拟的优势,讲话使人的声带及其周围小肌肉群得到空前的发展,听力促进了神经系统的进化,从语言学角度看,人类的文明史就是一部语言与知识相互促进作用、共同发展的历史。

  俗话说逢聋必哑。语言能力的培养与发展,始于人的听觉系统所受到的刺激。如果人长期不能受到听力的刺激,发音系统就会逐渐丧失,人要在依靠听力吸收信息的同时,不断地校正自己发音能力。现在计算机也到了聋哑并治的时候,听取信息和讲出信息将成为一个有机整体。

  让机器能听会说,是人类由来已久的理想,这个理想甚至比个人电脑的历史还要久远。在世界上第一台计算机的诞生之日,人们就提出了要让计算机听懂人的话并且能够说话。后来计算机以每一两年一代产品的速度向前发展,同时世界软件业对于语音合成、语音识别的研究从来没有停止过。

  但是,语音技术又与其他技术不同,譬如与能源(电的使用)、通信(电话的使用)、交通(汽车、飞机的使用)不同,人类对它充满了期待,又同时满怀耐心。因为它的确非常的困难。让机器听懂人说话曾经被一位知名的美国教授称之为是”比登月还难”的科学难题。

  不管哪家公司公布了所谓达到如何如何分辨率的语音识别产品,人们都会以合理的怀疑态度来听取它;当这个产品在实际的应用中,出现这样、那样的纰漏时,人们又以在其它地方很少见到的耐心和宽容来谅解它。

  因为人的大脑是一个十足的黑匣子,它通过人的五官而印象整个世界,这之间没有中间环节,它也没有操作系统。人类学习语音语言的过程,是一个把听、说、学习和推理统一起来的过程,也就是说,语言是知识的符号,语言系统实际就是知识系统。人从呱呱落地到上了大学开始了一个长达20多年的学习过程;同时这是一个漫长的学习语言的过程,他要掌握更多、更专门的词汇及其概念,要学会表述这些概念,从经验上看一个人毕业后仍需进行语言的学习和实践,几年之后才能在他所从事的领域具备正确的表达和写作能力。

  遗憾的是迄今为止我们一直没有教会计算机学习,没有给它一个知识的结构,它的操作系统所追求的目标一直都是硬件的效率与稳定,界面的友好与方便,除此之外我们根本没有考虑如何让电脑学会学习的问题。具体的讲一台电脑也许处理过几百万甚至上千万、上亿的文字资料,但是它什么都没有学,就连最简单的词汇搭配规律也视而不见,更不要说知识的归纳了。不要单怪电脑”笨”,现在似乎是该考虑新的操作系统的时候了,人类也许在本世纪内能够解决这个问题,就是说语音识别与语音合成不是表层的模式、词库和算法问题,当电脑能够基本了解语言所表述的逻辑关系的时候,电脑张嘴给我们提一个意见,会吓我们一跳。

  人们不会因为故事遥远而停止努力,合理的怀疑不等于否定,难得的宽容不是无限的耐心。国内外不少为了把梦想变为现实的厂商而致力于对梦的专情、专注,在语音合成上取得了显著成效。在国内,北京捷通华声语音技术有限公司无疑是其中一个最为典型的代表。作为一个在理想和现实中确立积极价值观的软件企业,伴随着语音技术应用市场的展开,捷通华声以其务实低调的企业作风、精湛的语音合成技术、出色的市场推广能力,到目前为止,其语音合成技术产品在中国市场拥有50%以上的市场占有率。捷通华声公司在确立了自己在中文语音合成(TTS)领域的国内、国际领先地位之后,联手国内外知名语音企业大胆进军语音识别技术领域,在2004年陆续不断地推出以”奥运之声”为代表的最先进的语音技术重头产品。

  面对挑战性的考验,以捷通华声为代表的一些企业对语音技术一往情深而”咬定青山不放松”的源动力到底何在?

  捷通华声公司总经理武卫东说出了他的看法:其一是语音技术已经成为计算机是否可以实现与社会服务体系无缝衔接的最关键的技术瓶颈之一,因而被国外众多媒体和专家评为21世纪前十年将对人类生活方式产生重大影响的十大科技进展之一。其二是广阔的市场前景及语音技术对人类生活的重大意义。中国互联网络中心也预测:”未来五年,中文语音技术领域将会有1300亿元的市场容量。”

  基于对整体市场的认识和深刻理解,捷通华声公司总经理武卫东先生从完全实用的角度道明了语音技术的历史性意义所在:

首先是语音技术可以消减政府开支、提高政府服务质量

  现在我国政府提倡”以人为本”和”为民从政”,我们经常听到哪一个地区、哪一级政府开了一项什么服务热线,从房改咨询热线,到采暖咨询热线。在我们感悟政府为民办实事的时候,有没有想到它的成本呢?世界上没有免费的午餐。

  开一条热线,花上几十万元太普通了,动辄百万也不足为奇,更重要的是政府的人员编制在一次次”具有积极意义”的为民服务中不知不觉地扩大了。以2002年为例,当年的政府财政收入为15000亿,各种数字化办公项目开支达到1000多亿元。这真是矛盾,我们在享受政府服务的同时,政府的资源在扩大着耗费,纳税人的负担在无形中增加着。语音技术就可以解决这个问题,起码可以大大降低费用。只要线路条件允许,机器问答24小时不知疲倦,不要加班费,也不要提薪提职,而且同时能够把从记录中得来的问题分解成为可以进入数据库的记录,政府工作人员可以方便的处理这些数据,把更多的精力用在分析问题和解决问题上面。

其次是咨询服务业对于语音技术的期待已久

  曾几何时,呼叫中心被视为新的IT经济增长点,被视为现代服务的革命。

  但是人们很快就发现它有严重的成本问题,中小企业对此尤为敏感,他们不少又回到了业务员代接咨询电话,谁赶上谁接的传统方式;一些大的企业800810客服专线的接通率、应答率也不尽人意,甚至形如虚设。一个呼叫中心,一个或几个服务器;一个坐席,一部专线,一个或两个话务员,算下来投资和费用都是不小的一笔。

  呼叫中心的出路在哪里呢?– 答案是语音技术,语音识别和语音合成,再加上数据库共同组成的解决方案。

  呼叫中心必须迅速地走上机器智能应答和记录的道路,不然的话,呼叫中心只能变成一个美丽而不实际的神话,24小时的热线服务,不均匀的问讯量峰谷,日益增高的工资成本,坐席人员的培训与流失,很快就会使企业不堪其负。

  机器的语音应答,自动的问讯和需求记录,将大幅度降低呼叫中心的投资及其运转成本,尤其是它将受到广大中小企业的欢迎。

  国际上衡量一个国家的咨询服务业发展程度有一个参考值,即信息咨询产值与电子产品工业产值的比率,这个比值在欧美日的平均水平是1:1强,而中国的这个比值是不到9%,香港新加坡的平均水平是中国大陆的4倍左右。美国的著名咨询企业安达信南公司曾报告指出,按照中国的市场化发展速度看,如果正常,到2010中国的信息咨询业将达到100亿美元,即1000亿人民币左右的规模。这还不包括各级政府、大中小企业自建的咨询服务热线,所以说,中国互联网中心所预计的语音产品及其咨询业规模将在1300亿元是可信的。

最后是无限关联的生活需求

  一位坐轮椅的老人对自己的轮椅说”伙计,再往前来一下。”
  一个粗心的家庭主妇对着微波炉说”咳,麦克,解冻2斤肉要几分钟呀?”
  一个着急的司机对着爱车喊道”我说,马驹子,咱们现在在哪啊这是?””现在我们在京良路上,刚进入大兴县。”

  在语音技术发展所至的今天,这些都不再是神话了。技术么,不复杂,但是因为有了语音技术,产品好像前进了一个时代。

  面对前沿科技的魅力,捷通华声公司以前瞻性的眼光和举动在业内默默耕耘,业内人士对于他们的评价更多的是用”在推进产业发展的同时,捷通华声同样享受着收获的快感”。多年来,捷通华声致力发展语音技术、始终占据中文语音技术产业化发展制高点。尤其是在北京筹办2008年奥运会的进程中,无疑为捷通华声再一次飞跃提供了更好的契机,其呼叫中心和语音合成模块两个方面技术突破更是为行业树起了新的希望和梦想!

千呼万唤,无坐席呼叫中心将成为服务领域生力军

  捷通华声作为国内外重要的中文语音技术供应商,积极与国内外知名语音技术厂商建立战略合作联盟,以求全面发展语音合成、语音识别两项关键技术相结合的整体解决方案,其中与美国SCANSOFT公司、马来西亚NUSAURA、中科模识、中科信利、法国ELAN等建立了密切的合作伙伴关系。
2004年10月,捷通华声向国内CTI市场推荐了美国SCANSOFT公司所研制的最新语音识别技术0SR,此后捷通华声借助高性能的OSR技术完成了语音合成、语音识别技术的完美组合,努力使代表未来发展趋势之一的无坐席呼叫中心成为可能。

  所谓无坐席呼叫中心的语音服务应答简单过程如下:

2005年语音技术产业发展展望


 

记录语音来访的简单流程如下:

2005年语音技术产业发展展望


  这种用语音技术支撑起来的呼叫中心将创造一种崭新的工作方式,我们似乎可以暂时称之为”无坐席呼叫中心”。无坐席呼叫中心是一个24小时不关闭的信息窗口,不管是政府,还是公司,他们与受众者之间永远保持着一条热线,并且是以一种合理的开支来运行的。在开始筹建阶段,某个负责该热线的办公室,要把索引词想得尽量全面、合理,把内容输入进数据库,呼叫中心就完成了内容的准备。运转之后,有关人员一上班,系统已经给他整理出了若干小时以内的来访统计及其明细记录,同时还整理出来访的留言信息,包括反映的问题、联系的方法、批评与建议,以及未得到解答的需要系统进一步补充完善的问题。一个具有基本效率要求的机构自然知道如何使工作和呼叫中心的运转节奏吻合起来,从而进入服务的良性循环。

  来访者的口音是一个无法回避的问题,对此捷通华声采取了积极的应对措施,诸如,针对呼叫中心所在的服务领域提高音库、词库的针对性和反映速度,同时使系统具备不断学习来访者口音的能力,使语料库不断丰富,识别率不断提高。无坐席呼叫中心咄咄逼人的市场意义就在于它可以很快降低服务成本、提高服务效率。

  另一个鼓舞人心的机会就是2008年北京奥运会,捷通华声与国内外厂商合作已经能够提供二十几种语言的语音合成与识别技术,为使在2008年前建成多语种的2008北京奥运语音查询系统奠定了坚实的基础。现在的问题是多语种数据库的建立,以及在公用一个平台下的多语种切换技术。捷通华声正在与首信集团、中科模识、华建集团等众多合作伙伴紧密合作,合力攻关,力争早日实现北京在申办2008年奥运会中所作出的郑重承诺:”在2008北京奥运,Any Time, Any Where, Any One, Any Device都能方便地获取奥运的信息,分享奥运的喜悦”。

浪沙淘尽,还信息家电本义

  对于在整个领域所取得的辉煌成绩,捷通华声相关人士从其战略上作了相关的诠释。其把语音产品的完整战略归结于宏、微两个战场的合二为一。

  宏,就是CTI类的呼叫中心解决方案;微,就是在嵌入式设备中的应用,2003年捷通华声已经成功推出了灵感嵌入式智能技术解决方案,”灵感”是一个包括语音合成、语音识别、手写识别技术在内的整体嵌入式解决方案,发展语音DSP技术,直至真正语音技术芯片即语音信号处理的集成电路技术是捷通华声更高的语音技术产业化发展目标。

  回顾一下,和”呼叫中心”观念同时打响的还有”信息家电”观念,就有家电企业搞出了可以上网的冰箱。这种积极的进取精神令人感动,但是即使是最狂热的网虫,也还不至于一定要在从冰箱取鸡蛋的时候上网。这个故事颇具幽默色彩,但是也从一个侧面说明,人们在摸索一个新观念的往往要负出不小的代价。

  那么什么是信息家电呢?其实我们更愿意把它们叫做”数码家电”,或者”智能家电”。

  笔者认为”信息家电”起码要在两个”域”里符合四个条件,两个域,一个是局域,可以以人的耳目所及的空间为范围;一个是广域,可以理解为互联网。

  1) 能够接收人的信息,当然最方便简单的接收方式是语音;
  2) 能够向人反馈信息,其现实方法,当然最直接的是语音;
  3) 以有线或无线方式发出自身的信息,这里要例举几个例子加以说明。

  例如老幼病人的自动监护设备,要向服务中心反馈情况;高价值复杂商品,例如汽车、复印机的跟踪服务、故障分析或保养期限的管理;在居室主人不在情况下的室内能耗管理、水电、气的计量等等。

  4) 以网络方式接收来自服务中心的信息,使相关的设备获得学习能力,这最后一条应当限于信息设备,诸如电脑、PDA、电子词典、手机等,具体讲就是让设备可以自动接收来自某个服务器发布的信息,例如新的词条、功能的补充、软件的补丁、电脑病毒的疫苗、时钟的调整等等,这里的关键技术是,接收来的信息如何像已有的信息一样稳定的存在系统的ROM里,并且插入已有的索引队列。这一点听起来容易,做起来还是有问题待解决的。

  这四条中,前两条属于局域的范围,后两条属于广域的范围,广域的事情将仰赖IP6的实施,128位编码将使网址资源近乎无限的扩大,能够供给每一本电子词典、每一部电话、每一扇门窗、每一个文具盒一个网址。那似乎还要等上几年,还是先回到眼前的局域范围,捷通华声的语音合成模块将充分诠释信息家电的本质特点 — 和人之间的交流,而且是方便的语音交流。目前捷通华声的语音合成模块化的产品对象首先定位于汽车的语音导航系统和语音智能集团电话交换机。

  汽车语音导航系统,结合卫星定位技术,可以使司机手不离方向盘,眼不离行驶前方,通过语音与导航系统交流。这是一项极具市场潜力的技术,它一端连着汽车制造业,一端连着卫星定位导航这个新兴的交通服务业务。最后的完善试验、与有关厂商的协作洽谈都在紧张地进行之中。驾驶者和车的语音交流在国内外都是新东西,其效果如何?能否迅速占领市场?这不仅是对捷通华声的考验,也是对中国工业的考验。

  语音智能集团电话交换机更是把语音技术的应用推到了极致。

  当用户访问一个单位的时候,将不需要记住分机号码,你只要说出联系人的姓名或者具体部门,电话就会自动接过去;它还可以说的更多,例如应当接听电话的人现在在不在?为什么不在?在哪里可以找到他,或者问题还可以问哪个部门?甚至集团交换机可以回答一些简单而重复回答的问题,例如某个时间、地址、价格等等。

  捷通华声的语音合成模块技术在智能玩具、智能教学以及各种白色家电上都有广泛的用武之地,工作要一步步地展开,包括基础设计、基础试验、工业标准的稳定性试验、知识产权的管理和界定、向有关产业展开纵向调查、产品定型及其可行性研究,工作的难度和数量都可想而知,这对于一个成立于2000年的科技企业来说是一个不小的考验。

  技术拥有者必须有宽大的襟怀、灵活的策略、谨严的实业理念、必要的妥协精神才能够与产业界实现健康的合作,即不能盲目投机亦不能孤芳自赏错失产业发展的良机。我们期待着捷通华声公司能够尽早使产品技术全面实现工业标准,实现语音技术向制造业的转移,同时也期待着他们能够漂亮地实现与制造业企业合作,促成中国语音产业的快速发展。

  2005年,我们静静等候捷通华声公司的语音技术产品的美妙华音。


CTI论坛

责编:admin

转载请注明来源:2005年语音技术产业发展展望

相关文章

  • 没有相关文章!

噢!评论已关闭。