商业银行智能语音导航语音识别能力现状调研及发展建议

    |     2022年2月28日   |   2022年, 客世原创   |     评论已关闭   |    1646

数字化转型加速,人工智能技术广泛应用,依托语音交互的产品已成为各行各业提供高质量服务的有力抓手。以银行业为例,我国大型商业银行纷纷上线智能语音导航(以下简称“导航”)、开放全语音门户模式应用,即是满足新时代下客户追求舒适、便捷服务体验的直接体现。而语音识别作为导航服务全流程的首个环节,其效果决定了客户需求是否被精准捕捉,极大程度上影响了服务质量与客户体验。本文在多维度体验测评不同商业银行导航语音识别效果的基础上,研究分析不同影响因素的作用程度及对应提升手段,为推进商业银行智能服务高质量发展提供参考借鉴。

一、影响因素分析

目前,市场上定义语音识别技术是指机器通过识别和理解过程将语音信号转变为相应文本或命令的技术。因此,导航的语音识别环节也包括识别和理解两个过程,且由于识别过程易受到语音输入所处环境影响、理解过程易受到语音内容影响,故导航语音识别效果与客户表述环境及客户表述内容紧密相关。其中客户表述环境主要包括设备、发音方式、环境安静程度三个因素,客户表述内容主要包括语料包含关键词类别、语料长度、表述方式三个因素。

(一)客户表述环境影响因素

1.设备

目前,导航与客户主要是通过语音交互,因此语音输入效果是导航语音识别效果的一个重要因素。语音输入效果与使用设备紧密相关,受设备自身性能差异影响,一般情况下手机的收音及降噪能力要优于固话。如手机中有一个麦克风具有主动消除噪音的功能,但固定电话却不具备该条件。

2.发音方式

发音方式主要是指主说话人的发音特点,包括在语音、词汇及语法等方面表现出的差异。我国地域广阔,历史发展过程中使得现代汉语存在各种方言形式。导航通过语音与客户交互的特点,使得客户更倾向于以“日常对话”式的风格与导航交流。以广东地区客户为例,当地工作生活主要使用粤语,因此当地客户在发音上表现出与普通话不同的特点,对导航的语音识别能力也提出了更高的要求。

3.环境安静程度

环境是否安静,决定了产品在收音时是否能清晰的捕捉到主说话人的声波。现有技术条件下,市场上应用的语音识别产品还尚未具有人的精准感知,实现像人一样清楚的分辨出主说话人及非主说话人的音源。因此,客户所处环境的安静程度易对导航语音识别效果产生影响。若客户在车站、地铁等嘈杂场所时,周围环境的噪音可能会使得导航的语音识别效果大打折扣。

(二)客户表述内容影响因素

1.关键词类别

商业银行所处的金融行业,对于大部分客户来说属于专业性较强的行业。因此其业务涉及的专业词汇,客户并非都熟悉了解,不一定能够做到精准表述。另外,银行业务关键词除涉及中文关键词外,还有英文关键词。客户表述中是否包含关键词可能对导航语音识别效果产生一定影响。

2.语料长度

语音交流与文字交流相比,缺少了思考、整理、总结的过程。因此,在语音交互时,易出现因存在语气词或重复表述等现象的长语料表述。考虑到导航与客户的互动,相比其他语音交互形式(如在输入法产品上通过语音转文字的形式输入内容)有一定时间限制,长语料的存在可能导致导航未完整识别客户表述内容,进而使得识别结果出现偏差。

3.表述方式

表述方式主要是由于不同客户的个性不同,因此表达业务需求的形式也会存在差异。而且汉语言博大精深,客户的表述方式稍微变换,可能其表述的含义恰恰相反。因此,导航准确识别并理解客户不同表述方式下的真实意图,是后续交付正确业务结果的重要前提。

二、应用现状调研

(一)调研方式

调研即分别从客户表述环境及客户表述内容两方面开展测评,通过观察不同商业银行(选取5家调研对象,分别为中国工商银行、中国建设银行、中国农业银行、中国银行、招商银行)导航的反馈情况判断评估语音识别效果。调研充分考虑客户表述内容涉及因素,设计10个测试案例,使用普通客户身份拨打商业银行客户服务热线、依次置于客户表述环境涉及因素下(包括2类设备、3类发音、4类环境共9种情形)开展测试(手工调研存在一定误差,调研结果供参考分析)。具体案例如表1所示。

表1:调研维度及使用案例

(二)调研结果分析

1.导航语音识别效果对设备敏感度不高。5家调研对象中,1家商业银行的手机与固话测试结果相同,4家商业银行出现微小差异,但都表现出手机评分结果比固话高,与手机较固话效果更好的理论预期一致。

2.导航语音识别效果对发音方式敏感度较高,且与表述内容强相关。5家调研对象中,各家商业银行的方言识别效果与普通话相比,均出现不同程度下降。分析发现,改变发音方式对导航的影响程度在不同客户表述内容下呈现出不同特征,当客户表述内容为含中文业务关键词案例(如案例1和案例8)时,识别效果受方言影响较小;当客户表述内容为含英文关键词案例或长语料案例时,识别效果受方言影响较不稳定。

3.导航语音识别效果易受60分贝以上噪声干扰。调研使用无主说话人的四种纯噪声作为音源拨测体验时,发现当噪声分贝值低于60分贝[1]时,各家商业银行均可忽略该噪声,识别效果基本不受干扰;当噪声分贝值高于60分贝低于70分贝时,各家商业银行较容易将噪声误识别为相关内容,识别效果受到一定程度干扰;当噪声分贝值高于70分贝时,各家商业银行几乎均将噪声误识别为相关内容,识别效果受到严重干扰。

4.导航对噪声的抗干扰能力差距较大。在有噪声环境下,不同商业银行导航的识别效果表现存在差异。仅个别商业银行在有噪声与无噪声环境下的语音识别效果基本相同。除此之外,导航语音识别效果受噪声干扰程度与噪声类型紧密相关,大部分商业银行表现出噪声类型不同,受干扰程度不同。

5.导航语音识别效果受客户表述内容影响因素的程度存在差异。在客户表述内容含明确关键词方面,关键词为中文词时,5家调研对象整体表现差异不大;关键词为英文时,部分调研对象识别效果下降。在长语料方面,以招商银行为代表的商业银行更能准确识别客户意图。在表述方式方面,中国建设银行更能理解复杂的表述方式,精准把握客户真实意图。

总体来看,导航语音识别效果易受到相关因素不同程度的影响。其中,在客户表述环境方面,发音方式影响最大、环境噪声影响次之、设备因素影响最小;在客户表述内容方面,表述方式影响最大、语料长度影响次之、关键词类别影响最小。

三、发展建议

语音识别效果作为导航的重要“捕手”,极大程度上决定了后续环节的服务质量,直接影响着客户对服务水平的评价与认可。各大商业银行应注重开展语音交互体验研究,持续增强导航的语音识别效果,并尝试从创新机制、价值创造等层面全方位提升导航服务能力。

(一)持续提高语音识别基础能力

导航使用语音与客户交互的服务特点,极易受到客户输入语音夹杂方言甚至是纯方言、周边环境噪声等干扰影响。建议进一步加大对语音识别引擎系统、技术应用等方面的研究对比,优化提高导航对方言、噪声的识别准确度,持续提升对方言的识别效果,以及对环境噪声的抗干扰能力。

(二)创新机制建设语音识别辅助能力

调研发现导航对长语料识别效果欠佳原因主要为口语交流中夹杂过多无意义词影响,建议建立无意义词过滤机制,各商业银行可结合业务特色及客户咨询特点创建专用无意义词库,通过系统自动过滤客户语料中的无意义词“化长为短”,进一步提升对长语料的识别效果。

(三)价值创造提升导航服务能力

人在使用口语表达时主要有酝酿过程短、用词自由、借用语调表达情感等特点,本次调研时发现两个现象,一是客户表述间的明显语调变化实际可反映出情绪波动但未能被导航捕捉并有效利用,二是仍存在客户不知如何使用、不确定获得信息是否准确等情况。建议一方面进一步挖掘交互数据价值,考虑从客户表述内容、语音语调、语速等方面开展情绪研究应用;另一方面加大对导航引导效果的实验分析,通过开展客户行为研究、话术设计等引导客户更简单、更清楚、更愿意使用导航服务,提升导航综合服务能力。

[1] 本次调研中所有测试分贝值皆使用希玛AR-824分贝仪监测,选择频率加权特性A,可监测范围30-130分贝。

 

作者:张旺遥 范峥 李凯;单位:中国建设银行远程智能银行中心合肥分中心。

本文刊载于《客户世界》2022年1-2月合刊。

转载请注明来源:商业银行智能语音导航语音识别能力现状调研及发展建议

相关文章

噢!评论已关闭。