基于自然语言技术的客服语音智能系统设计研究

客户世界 | 2020年12月16日 | 客世原创 | 评论已关闭 | 2524

摘要：在客户服务中心的业务运营中，服务语音质检是热线服务的重要控制环节之一，传统的客户服务语音质检主要是通过人工系统对照的方式，按照质检标准听取人工服务录音，对照评分得出结论，且由于人力的限制，大多是按照抽检的方式进行，其存在质控效率低、覆盖范围小、结论与服务质量质检存在较大差异等一系列问题。本文基于自然语言技术理论，通过对客服语音智能质检方式，利用机器学习模型方式，从文本相似度、自动化、精准度、偏差度等多个视角进行深度分析与探究，为提升客服语音智能系统的综合效能提供些许参考与建议。

前言

客服语音智能系统主要涉及语音识别、自然语音、分词技术、文本相似等关键技术，最早在语音识别及自然语言处理维度，已经形成了一定的行业技术标准。本文结合浙江某信息技术有限公司出品的客服语音智能系统—X系统，从文本数据、语音质检现状、总体设计、机器学习技能、数据获取、文本预处理、模型选择、模型训练等一整套链路体系进行拆分、列举、分析及研究，着重通过系统需求分析、框架设计、系统数据、模型设计等逻辑视角系统化分析。同时，将CNN模型计算文本相似度融合到客服语音智能质检系统的架构设计中，形成自动化质检、评分选择、语音信箱管理等差异化功能，对客服语音质检系统综合效能提升奠定了良好的基础。

一、国内外相关研究概述

国内对客服语音智能系统的研究主要是在一些电商平台，阿里巴巴从人工智能助手技术为突破口，重点从语义关系维度进一步加深对自然语言的理解，在客服系统中嵌入功能，减少人工的干预动作。在中文分词研究方面，最早的自动分词系统产生在80年代初，按照中文分词的算法，利用神经网络方法进行分词。在具体的应用方法上，其主要在字典信息方法上应用两种路径，一种是伪标记数据生成模式，主要是基于数据集合的实验模式，在数据不足的情况下，可逐步提升中文分词的性能效果。另一种是基于多任务学习方法，该方法采用自主学习文本特征的方式，充分考虑到语句字词间的标签信息，逐步形成文本信息的推理能力。在客服语言智能系统的中文分词性能上，其主要是从专业领域标注语料的逻辑上，基于深度学习、迁移学习模式自动分配分词方法。这里需要引入文本相似度概念，主要是基于语义相似度的文本主题改进模式，对文本相似度的可靠性、性能标准进行优化，按照依存文本法的方式降低句子的相似度，根据语句的相似度、依存关系共同提升语句相似度。不仅如此，文本相似度还不能仅仅考虑字面含义，还需要更多评估、考虑语义的相似性问题，现有方法中，融合距离、语义匹配模型等都是在上述特定场景下的优势解决方法。

国外对于自然语言技术的客服语音智能系统设计研究主要在如下几个方面，一是客服质检系统从人工手动管理模式逐步转变为C/S质检模式，再到B/S模式的半自动化抽检系统。上述系统转变更为全面覆盖质检流程，应用更多到质检场景。二是文本相似度研究方面，短文本相似度算法、时间数据集定义出与特定事件的有效性。在相似度方面，共线关系、共线频次需要建立在文本更为复杂的网络模型基础上，用以对比更多文本相似度模型。

二、基于自然语言技术的客服语音智能系统设计路径

（一）自然语言处理技术

客观而言，自然语言技术是一门集合了计算机语言、人工智能、语言学的交叉学科，其最终目标是为了更好地进行机器处理。在语言处理阶段，无论是从词语还是句式，再到文本分析层面，自然语言处理领域所涵盖的范围有很多，在中文分词、标注、实体识别等方面均具备良好的技术实现、应用条件。在任务拆解上，自然语言也包含单词、句式、文本的处理技术，从词法分配、语言分配、词法分析等视角，均可以将文本逐步拆分，形成特定场景下的词语分类、类别分析、识别名词，而词法分析是贯穿到整个任务基础阶段。现代自然语言处理技术的发展对句子研究，按照句法、句子的生成路径方法，解决好人机交互的问题。在句法解析层面，解决高精度下的中文分词、词性标注等问题，最终提升人工智能的语义精度。

（二）中文分词提取技术

中文分词是将一系列文本拆分到单词的过程，这些单词顺序可拼接为文本关系，而中文分词在具体的颗粒度细分上可逐步分为粗粒度、细粒度分词。二者擅长领域有所差异，前者主要适用于自然语言处理技术，后者主要是应用在搜索引擎领域。中文分词在自然语言的应用中，属于最小的单元位，其主要是将句子转化为可计算的逻辑表达模式，该句中的词语表达以针对性的计算符号作为状态、动作、事物的概念。

从上个世纪70年代开始，我国一直致力于对机器可读语料库建设，很多专业学术研究机构开始构建中文语料库。语料库建设按照分词任务的方式，前期存在一定的分词标准不统一，而后期则不断提升分词标准、分词精准度等，形成了基于机械分词、基于词法和规则的分词、基于统计的分词法等三大分词方法，最终形成较为成功的中文分词技术。现今的分词技术已经集合各种系统工具、语言技术平台、分词组件等、云服务、工具包等，通过网络访问接口以及API接口的调用，不断丰富及优化分词器的语料专业性。

（三）语义向量技术

自然语言处理的相关任务中，其最常见的步骤是先创建词表库，并将每个词进行顺序编号，词语之间定义较长的向量，问题捕捉词之间进行相似度、语义距离的维度超载。最早的向量词语基本思想是通过训练每个词映射实数向量，通过计算词与词之间的距离判断语义相似度。词向量是自然语言处理的一种特征提取技术，其将单词、短语映射为低纬度实数向量，数据原始空间维度有数据分布，将映射定位为低维空间，且彼此之间的距离也会相对缩小很多，其相似度也会逐步体现出来。

在语料库的建设上，词向量基于神经网络语言模型训练而来，比传统特征提取方法更加有效。词向量评估一般有两种类型，一种是提高系统综合性能，其主要采用集成词向量的方法。另外一种是采用语言学的直接分析词向量方法，采用语义偏移量、相似度计算等方式嫁接传统机器学习技能、深度学习技能，逐步训练词向量的方法。在语料库构建中，将向量构成一个词向量空间，每个向量都可以作为独立的向量空间，通过计算词之间距离引入新的概念，利用分布表示的词向量形式作为自然语言处理中的特征处理技术。

（四）文本相似度技术

在文本相似度技术方面，词向量作为入门的第一站，也是作为自然语言处理中的一种特征提取技术。从数据的原始空间维度设定数据分布、映射空间，彼此空间距离会逐步缩小，其相似度特征也会逐步体现出来。词向量主要是在规模语料库的基础上训练语言模型，文本相似性比传统的特征提取方法效果更优。在解决特征向量维数问题上起到一定的促进作用，词向量语义相似度也会在词向量间相似程度上加以映射。文本相似度技术下的词向量评估也有两种类型，一种适合不断提高文本相似度技术的系统性能，在现有系统框架内不断提升集成词向量。另外一种是从语言学角度下直接进行文本相似度技术直接分析词向量，例如：偏移量、相似度计算等，提升语言学“距离象似性”原则的词汇构成实际的应用场景。

三、基于自然语言技术的客服语音智能系统应用路径

在自然语言技术的客服语音智能系统应用路径上，其还可以通过如下两种路径加以实现：

一是通过语料库构建方式形成客服语音智能系统基础应用空间模式。在空间模式的构建上，这一路径基本可被视作为向量空间的组件化模式，通过词语、相似性等形成基础的语料库，构建出基础的客服语音智能系统框架结构。

二是通过文本相似性模型与语音文本检测视角，加强智能质检系统的结构理解。在文本相似性研究的基础上，减少自然语言理解的判断，为客服人员智能化质量测评提供工具，减少人工的质检工作量，进而提升服务工作效率。在详细的举措上，可逐步从语音转码的文本纠错方式，利用开放平台AI接口进行接口调用，该接口可识别文本的错误段落，并针对性提出修改校对意见，这一方法也可以不断提升语音转码文本的准确率。

四、结论

诚然，设计出一套完整的语义分析客服语音智能系统需要完整的语音文本、识别技术、自然语言等基础模块的理解与应用，还需要从多模块视角，从系统用户管理模块、人工质检模块、质检标准模块、标准问题库模块等进行设计应用。未来，基于自然语言技术的客服语音智能系统必然会成为客服系统框架的重要组成部分之一，对客服质检全流程体系建设，数字化系统建设起到重要的创新作用及效果。

作者：杜秋；为客户中心智能化研究者；

本文刊载于《客户世界》2020年11月刊。