如何利用技术应对服务排队峰值(一)

    |     2021年1月4日   |   文库   |     评论已关闭   |    1396

一、背景

排队峰值指的是因为业务突发性异常,或者人力服务能力短时间内下降,产生比较严重地供需不平衡,从而导致的用户集中排队的现象。因为人力服务能力短时间内下降这种情况是可以尽量避免的,所以本文会重点介绍业务突发性异常导致的排队峰值,这种情况在客服行业中是一种比较典型的现象。

预测师一般会根据经验值来预测第二天的进线量,假如第二天业务线出现了一个问题,比如某个活动完成了一个任务,没有给到应得的奖励。那么这部分受影响的用户就会集中的进线导致排队峰值。以美团为例,因其业务非常广泛,所以基本每月都会有数十个此类的排队峰值情况。等业务线发现了这个问题并且快速修复后,排队峰值的情况就会马上好转。

从上面的例子来看,突发性异常导致的排队峰值会有突发性、暂时性两个特点。突发性是指事先没法预测在某个时间段会产生大量的进线。暂时性是指一般这类峰值持续时间都比较短,业务线收到问题反馈后会尽快修复问题,问题修复后,排队就会逐渐回归到正常水平。但是因为具备突发性和暂时性两个特点,所以在峰值期间,接线人力通常来不及准备,没法短时间内增加到数倍,而且因为峰值的时间比较短,等发现问题并且协调了其他业务线的支援同事,开通权限准备上线时,往往峰值也就恢复了。如果很多客户在峰值期间得不到问题的有效解答,也比较容易发生舆情事件。

二、以往是怎么样处理峰值的?

在峰值处理中,会有接线客服、现场管理、业务线人员和客服业务运营几类角色。一般现场管理会人肉盯盘,发现服务水平异常或者持续处于排队高位时,会找接线客服管理进行问题的确认,等确认确实出现了排队峰值后,会通知当前业务线需要周知的相关人员,一般会有客服业务运营和业务线人员同步集中问题情况,并且由客服业务运营人员拿到话术,同步到客户端和客服端。峰值期间涉及到的角色如图1所示。

(图1:峰值期间角色图)

在过去处理峰值的流程中,会存在如下的一些问题:

发现及同步排队峰值信息时间长:过去发现峰值完全靠人工上报,确认峰值并且拉群基本需要10分钟左右。

排队峰值发现不稳定:排队峰值是否能够顺利同步,比较依赖于现场管理是否能够及时发现。

没法短时间内确定集中问题和问题大小:问题的发现需要依靠客服的人工上报和抽查工单的情况来确认,没办法确定问题影响的范围和大小,也会影响对于后续的处理动作。

峰值手段比较单一:对于怎么处理当前的峰值,在客户侧往往也只能在发现问题的业务中上线一个通用公告。上线公告的速度也比较依赖于公告的编写速度和对于当前场景的判断。同时相关处理的话术也需要层层传达到全国的多个职场。

跨业务支援时间比较久:多个业务同时出现排队峰值的概率比较小,所以一般在某一条业务发生排队峰值的时候,现场会安排其他业务线培训过发生排队峰值业务线的客服进行支援,但是支援的流程从确认支援方案到最终支援人员开通权限上线接线往往需要15分钟左右,不能及时地发挥支援作用。

三、如何依托技术更好地解决峰值?

从峰值处理过程来看,我们可以分为发现、确认、解决、复盘四个阶段。每一个阶段都可以通过技术方式做一些优化,下面来分析下每一个阶段的目标和具体的实现方式。

1、发现

发现的目标是能够更准确、更快速地把当前线上已经发生的排队峰值情况同步给相关的人员。

这一块主要是需要两个能力,第一个是主动监控的能力,第二个是主动构建沟通环境的能力。主动监控需要监控每一条业务线目前的排队或者服务水平的情况,系统负责采集每分钟的排队或者服务水平数据,然后根据事先设定的分级阈值进行匹配,一旦超过阈值,就进行响应级别的告警,并且在告警之后还需要做持续的监控,一旦发现峰值级别有上升或者缓解,也及时地对峰值级别进行相应的调整。主动构建沟通环境主要是在系统发出峰值告警之后,根据事先配置的通知人员,组建一个沟通群,并且在群里同步当前峰值的最新情况,数据一般会包含峰值的级别,当前的进线和接线客服数据等,如图2所示。

(图2:系统触发峰值信息沟通群)

在这个过程中,我们需要根据峰值级别的提升,再自动拉取其他需要同步的管理者或者PR相关的同事进行信息同步,方便后续辅助方案决策。为了方便群内人员及时了解到更快信息,系统除了定期同步最新的数据之外,群里也提供了一个群智能助手,通过主动向群智能助手进行询问,可以得到最新的排队数据、天气情况以及用户和客服侧最新进展(该点在解决阶段也会提到),通过群智能助手还可以把一些方案快速地在客服侧和用户侧进行执行,在执行的同时,也把执行时间和方案本身同步给群内成员。

2、确认

确认的目标是辅助现场管理和业务快速确认排队峰值产生的原因,以便精细执行后面的解决方案。用户咨询服务系统集中诉求的TOP问题,抽象后称之为峰值现象,通过峰值现象来辅助执行后续的方案。
如何表示当前峰值的峰值现象?

用户与在线座席沟通过程中会通过文字来表达自己意图,用户意图可能需要多句话来表达,且表达方式多样,因此通过用户输入关键词集合表示峰值现象,具体实现流程见图3。系统通过采集在线客服系统最近10分钟(经验值)的用户输入,经过分词器,并过滤掉StopWord,经过textRank算法进行关键词提取,获取TOP3关键词和相应的权重,通过之前预设好的峰值现象和关键词的映射关系,来输出最终的峰值现象。

(图3:如何表示当前峰值的峰值现象)

3、解决

解决的主要目标是减缓峰值带来的影响。

解决主要通过服务体系外部和服务体系内部两部分来解决,对于业务线系统故障或者运营故障导致的排队峰值,服务侧会定时同步最新的峰值信息给到业务线,推动服务体系外部进行代码的修复或者方案的制定,并且同步最新的方案给到服务体系,从而传到客户侧和客服侧。服务体系内部会从智能侧和人工侧两部分来分别解决。智能侧的手段是提高预设方案的执行效率,能够让受峰值影响的客户更快地享受到智能的解决方案,给客户更多可选择的解决渠道。人力侧的手段主要是调整座席的并发和进行峰值支援,下一期解决环节分别会从智能解决和峰值支援两个部分进行具体展开。

四、总结

这一期介绍了服务排队峰值的背景,展示了下过去是怎么处理峰值的,对于如何依托技术更好地解决峰值分成了几个环节,并且对于发现和确认环节做了展开。下一期会重点对解决和复盘环节进行展开,设计了一个技术方案能够提前验证下次类似峰值来了,系统可以按照预先设置的方案执行。

作者:王松、陈胜;单位为美团基础研发平台-服务体验研发中心;

本文刊载于《客户世界》2020年8月刊。

转载请注明来源:如何利用技术应对服务排队峰值(一)

相关文章

噢!评论已关闭。