你好!新语音识别时代

    |     2015年7月12日   |   标杆展示   |     评论已关闭   |    1157

|唐潇霖|2006-05-31

    语音识别技术真有那么“风花雪月”吗?也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势

  微波炉或者电视机能听懂你的话吗?“加热3分钟”、“换到2频道”等等简单的指令,对于加载了嵌入式语音控制芯片的智能家电而言并不算难事,目前的语音识别技术已经完全可以胜任。如中国科学院声学研究所语音实验室这样的科研机构,甚至已经在跟家电厂商洽谈合作的可能。问题的关键在于,谁会为得到一台能听懂几个简单指令的微波炉而多付出几倍的价钱呢?

  一直以来,语音控制模块的成本因素似乎都是阻碍语音识别技术接近普通消费者的“拦路虎”。也正因为如此,像微软那座著名的“未来之家”一样,能通过自己的声音来控制家中的灯光、电视、冰箱、等各种电器,绝非语音识别技术最被看好、最值得期待的应用前景。即使是中科院自动化所以31万元的价格,为四川科技馆定做的那位能根据人类语音命令来完成画像的特种机器人“贝奇”,或许其更多的用处也只是被拿来展示和娱乐观众。

  走出实验室

  语音识别技术真有那么“风花雪月”吗?实际上,这项技术一直都是计算机研究领域内的一个热门课题,也一向倍受IBM、微软等等IT巨头器重,相关研究成果层出不穷。随着语音识别技术在最近几年逐渐向移动通讯、互联网等领域,以及各种不方便通过手写输入与机器进行“交流”的手持设备,如车载GPS定位系统、娱乐系统等硬件领域渗透,供其施展的舞台日益宽广起来。也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势。

  只需拨打一个号码,就可以搞定问路、订票、美食推荐、家政服务、娱乐休闲、火车时刻等等信息?对,这是中国电信最近推出的一项名为“号码百事通”的新业务,也是一款在挖掘和整合用户号码信息的基础上,针对用户的模糊查询等信息服务需求提供的新产品。因为是模糊查询,所以现行的“号码百事通”业务还需要靠人工坐席来实现,这必然需要投入大量资金来建设和不断完善呼叫中心。为解决这一问题,中国电信找到了中科院声学所。利用声学所的技术,中国电信不久后将在“号码百事通”系统中引入语音搜索引擎,可以根据人们打入电话的声音来识别、搜索出客户需要查询的信息并自动提供。

  同样是电信增值业务,目前江苏移动、山东移动等电信运营商,已经实现了用户通过“哼”一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,并且进行点播和下载的新业务。这种大规模的商业应用,已经进入了成熟阶段。中科院声学所语音实验室的潘接林副主任对《互联网周刊》表示,在商业应用上,这套系统最关键的部分是解决了计费环节的问题,电信运营商和声学所,由此可以按照每条查询的下载量来进行按比例分账。目前,声学所正在与互联网上的几大音乐内容提供商合作,不久后将可以实现在互联网上,通过唱出一段旋律的方式来进行音乐搜索。

  抓住语音搜索的商机

  今年4月11日,Google向美国专利署递交了一份语音技术专利申请,其中涵盖了Google在语音识别方面的大量技术发明。许多经济观察家们认为,Google有可能凭借此项专利,又一次牢牢控制住搜索引擎技术发展的前沿阵地。

  而一直视Google为最大潜在竞争对手的微软,从来都对语音识别技术格外重视。微软CEO鲍尔默在5月22日访华期间对记者说,在微软的技术创新方向上,有四个重要的落点,除了网络服务、安全和新设备等领域之外,还包括了自然语言理解。“语音识别技术在今后几年内会变得越来越重要。”鲍尔默解释说。

  其实,也正因为微软对该领域重兵布防,所以在去年发生了“李开复事件”之后,鲍尔默才会显得分外恼怒。跳槽到Google的微软原全球副总裁李开复在美国卡耐基梅隆大学读书的时候,就选择了语音识别技术作为研究方向,后来顺理成章的成为国际知名的语音识别技术专家,进入微软后一直主导着微软交互式语言及人机界面的研发工作。如此重要和关键的人物跑去了竞争对手那里,也难怪微软要为此诉诸法庭。

  在文字搜索已经发展到几乎没有上升空间的时候,这些技术巨头显然已经瞄准了未来的语音、视频搜索市场。微软曾把语音识别的未来应用重心放在计算机的听写机上,即类似于IBM ViaVoice的研究方向,希望把人的语音直接转换成文字。微软曾在其Word软件中嵌入了这种功能,但并未实现商业化。而在2006年的“微软亚洲研究院创新日”上,微软一口气介绍了11项与搜索相关的技术,其中“点播视/音频搜索”更是让人眼前一亮。可以想见,在争夺未来语音识别搜索技术话语权的问题上,微软决不会坐视Google去申请专利而无动于衷。

  下一座技术堡垒

  对于微软的语音识别技术,中科院声学所下属的中科信利技术有限公司高级副总裁刘建认为,目前微软的语音识别技术还处于技术跟踪阶段,而在商用化的道路上,中科院的技术目前在国际上已经走在了前列。目前世界上只有少数几家公司能够形成核心技术,而中科院声学所是国内唯一完全拥有核心自主技术的单位,目前其最大的竞争对手主要是美国的Nuance公司。

  Nuance由原来国际上的四大语音公司以及其它几家在语音技术方面有特点的语音公司整合而成。自合并以来,Nuance已发展成为全球首屈一指的语音解决方案供应商,它能够提供从网络到IVR(Interactive Voice Response,互动式语音应答)的应用方案。早在1996年9月,嘉信理财(Charles Schwab)公司所开通的首个大规模商用的语音识别应用系统:股票报价系统,其背后的技术就是由Nuance提供的。

  据刘建介绍,语音识别技术大致可以分为两个发展方向:一是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的方向是小型化、便携式语音产品的应用,如手机拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片和语音识别片上系统的出现,都为语音识别的广泛应用创造了有利的条件。

  现在,机器识别人的单词式的命令和指令,已经不再困难,并且已经开始了商用,例如中科信利几个月后将推出的具有语音识别功能的芯片,就可以应用在家电遥控、手机、汽车GPS、智能玩具等各种小型设备中。中信科利称,其2006年的预期收入将达到1000万元,较上年度有100%的增长。而另一种则是连续语音识别系统,比如说如果两个人在聊天,那么这些连贯的句子,将很难被机器识别,这也是语音识别技术领域内未来的研究重点。

责编:admin

转载请注明来源:你好!新语音识别时代

相关文章

噢!评论已关闭。