从统计学看呼叫中心质量管理
客户世界|许乃威|2007-12-16
p>
p>
质检一直是我认为最没用,却是最重要的一个管理手段。
我几次上公开课都会问:“请问在座的有没有做质检的?”每次都有不少学员举手。我会说:“你们的岗位,是最没用的,完全没有数学根据,不如不要做算了。然后这些举手的学员就会很生气,问我说:“都交了这么多学费来,老师在胡说八道什么啊?”
我当然是在讲反话,但以一个学习统计学多年的老家伙来说,现行质检作业的方式,真的跟数学没有关系。
我常常开玩笑说(虽然有时是讲的很认真严肃的),质检就是找一群人,躲在一个屋子里,偷偷摸摸听别人讲电话,然后光明正大的说:你这里讲错了,那里讲不好了。
这种方式,在管理学上称为恐吓法,也就是让座席代表知道,你尽量接电话,接越多越好,但只要你服务不到位,得罪了我们客户,我们有人偷听你电话的,随时准备扣你工资!
恐吓法是一种心理学的管理方式,在数学上是不成立的。
大家有注意到我讲的这句话吗?质检打分数来评断座席代表好坏的这种方式,在数学上,是不成立的!
大家以为自己质检作业,是符合科学的,是公平的,但利用统计学很轻易的可以证明,很多公司的质检作业,基本上跟掷骰子是没有两样的。
讲到这里,我应该是引起众怒了。这么多人花了这么多力气和心血,我尽然说这跟掷骰子没有两样,浪费了大家的心血不说,更严重的问题是,质检分数高度跟工资挂勾,如果这些质检分数是不科学的,那岂不是说决定座席代表工资的方法,也是用骰子掷的?
我曾经在前几期文章讲过一个例子,一个呼叫中心在全国各地有2千多个座席代表,深圳区一个很认真的小姑娘被客户一直辱骂,最后她以为客户挂线,电话也不再录音了,就讲了句“变态”。一天3百通电话,一个月6、7千通电话,总部质检就只抽4通,偏偏就抽到这一通,当月分数是全国2千多个座席代表的倒数前十名,把深圳区分数整个拖垮,对自己期许过高的她还搞地寻死觅活的。
同样的戏剧情节在同一个月,发生在同一个呼叫中心,也就在深圳区的另外一个座席代表,有严重的服务态度问题,会收客户线(就是要客户挂机),深圳主管都警告这座席代表,说要炒掉她了,结果同月份总部质检,也是抽4通,这座席代表知道总部质检的漏洞,总部没有抽到她任何一通要客户挂机的电话,结果被评为深圳区第三名。这姑娘跟主管说:“现在不是要炒掉我的问题,而是要加多少工资的问题,因为我是深圳之光!”
每个月有几千通的电话,只抽几通电话,可以看到事情的真相吗?
从统计学的角度来看,质检作业有6大问题完全不符合统计学的要求,这些问题的任何一点都足以让质检分数完全不具有数学意义,只是对座席代表进行恐吓法管理而已。
1 抽样数不足
这是笔者说的质检作业的第一个大问题。当抽样数不足,也就是样本不够,却要说这个座席代表“属于这种特质”时,这只比掷骰子的情况稍微好一点而已。
到底要多少样本数才对事情的真相有足够的信心呢?
如果是以平均值的样本数计算,所需最少样本数=概率度² x 标准差² / 极限误差²
大家看到这公式肯定是昏倒的,换成一个容易懂的方式说。
假设一个座席代表过去曾经被抽检过10通电话,分数分别是100、95、94、90、85、80、80、75、75、70,这10通电话的平均值是84.4分,标准差是10分(如果不懂标准差的定义,请参考笔者上一期的文章)。
如果我们问,在95%的信心水平下,这座席代表质检分数的平均值大约会落在那个范围?
这是一个很重要的问题,因为你给这座席代表打出了84.4的平均分,但这分数却是一个抽样的结果,只要是抽样,一定有误差,你必须要估计误差。在古代,如果你是大宋提刑官,打算要杀人,你必须估计你杀错人的机会有多大,而这公式如下:
平均误差=标准差 / √抽样数
极限误差=概率度 x平均误差
大家如果没有看明白这公式,完全没有关系,只要知道结论就好,也就是利用上面这两个公式,平均误差是 10 /√10 ,也就是3.16。
95%的信心水平,概率度是1.96,极限误差也就是6.2。
我们得到了一个重要结论:
换句话说,如果你说,你有95%的信心判断这座席代表的分数,那这分数应该是落在78到90之间(84.4 ± 6.2,取整)。
大家看到这分数范围有多宽了吗?
一个座席代表被打分数的标准差在10分左右,是很常见的,只要最高分跟最低分的差距高于20分,就有可能标准差会大于10分,如果你的质检员打分的录音抽样数只有10通,她打出了84分,那这座席代表真正的分数,很有可能在78到90分之间!
换句话说,你说这座席代表的84分,高于另外一个座席代表的80分,你要奖励这座席代表,在统计上来说,这很可能是抽样误差造成的,根本不是事实!
上面这两个公式转换一下,就会得到最少样本数的公式,我们可以计算一下,如果这个座席代表的分数标准差还是10分,如果想要在95%的信心水平下,有把握的讲出上下分数波动不多于3分的话(也就是81分和87分之间,也就是84.4 ±3),那应该要抽多少录音档呢?
所需最少样本数=概率度² x 标准差² / 极限误差²,把数据带入这个公式,所需最少样本数=1.96²x 10² / 3²,也就是43个。
大家说这么少啊,一个座席代表一个月只要抽43通,等于一个礼拜抽10通,这应该不是太难的事情。但大家要注意的是,最少样本数是跟标准差的平方成正比的,我们刚刚只是用10分来算而已,但再好的座席代表都很难达到标准差为10分,为何?因为这里讲的标准差是指这个座席代表的标准差,而不是这个月抽听录音档评分出来的标准差,只是因为我们不知道这座席代表真正的标准差,只好权宜行事,用这次抽样录音分数的标准差来计算。
真正的做法,应该把你以前曾经替这座席代表打过的分数,所有给这座席代表打分的历史都拿出来,计算所有打分纪录的标准差,也就是不能只看这个月的。
用这算法,一个座席代表的标准差就很容易扩大了。如果扩大到了15分,带入公式,所需样本数就变成了96通,也就是一礼拜要抽24通。
万一这座席代表的标准差是20分,就需要抽取 171通,一礼拜要抽42通,这基本上是不可能的!
大家应该很难做到高样本数的要求,因为要做到高样本数,成本是受不了的,那应该怎么办呢?
大家刚刚应该注意到了,其实统计学要求高样本数,是对于座席代表标准差大的,也就是座席代表质检分数忽高忽低的,如果标准差小,只需要少数的抽样就能看到事情的真相。
这个统计学上的特性,让我们对于质检作业有了一个新的做法,就是:不同标准差的座席代表应该要有不同的抽检率。
呼叫中心把座席代表按照质检分数的标准差来分类,甚至更简单,按照座席代表质检分数的好坏来分类(通常分数高,标准差也小),不同分类的抽检率不同,这样可以让质检员的力气,花在真正需要花的地方,也就是分数高的,不需要抽听太多电话,分数低的,需要花更多力气来确认到底这座席代表表现的是好还是坏,这种分类抽检的方式,是完全符合统计学的。
很多国外的专家最近一直大力呼吁,与其测量平均分数,还不如测量座席代表的一次解决率和致命错误率,因为这两个指针需要的样本数比较少,这两个指标才具有数学上的意义。
具有数学上的意义,这是很重要的,有数学上的意义,作为主管的你,骂起人来才会比较大声,不是吗?
不然你看到一个座席代表的质检分是79分,你拿来跟另外一位的83分比,你想起来某人讲过的,这两个分数在数学上的意义,可能跟拿骰子随便乱掷结果差不多,你恐怕就骂不下去了。
困惑是阻止有效管理的重大障碍,一个在数学上不成立的绩效测量,是造成困惑最直接的原因。
打分数主要分成两种方式,一种是平均数打分,也就是有一个范围要你打分,例如从0到100分(正向),或是从0扣分扣到40分(负向)。
另外一种打分数是叫做合格率打分,也就是你只判断座席代表这通电话的服务是否合格,而合格与否只有两种可能,过关或不过关。
是否统计学就像是这些国外专家讲的,少量的抽样就足以判断座席代表的合格率(例如100通电话其中有多少通合格)?
笔者也一度也以为是,很不幸的,结果发现完全不是。
合格率的最少样本数=【全部录音档数量×概率度²×合格率×(1-合格率)】/ 【全部录音档数量×极限误差²+概率度² ×合格率×(1-合格率)】
套用这个公式,假设全部录音档数量是2千通,如果合格率是95%,你希望95%的信心水平下,合格率出现在92%到98%的范围(上下3%),你至少要抽取184通电话的样本才能确认!
如果合格率降到90%,你就需要322通电话才能确认。
座席代表的合格率很容易低于90%,如果你有测量致命错误率或一次解决率,你就会发觉这数据太容易低过90%,一旦低过90%,你不禁就要问自己:我有足够的样本数来支持我的结论吗?
我们从上面可以看到,如果你测量的是平均值,也就是你测量0到100分这种分数的,最少样本数是跟座席代表的标准差有很大关联,座席代表标准差越高你就需要越多的样本数,如果你是测量合格率的话,最少样本数是跟合格率高度相关的,也就是合格率越低,你需要越多的样本数。
其实这跟直觉是符合的,一个标准差越大的座席代表,通常合格率就越低。
谈到平均数和合格率的公式,大家应该还有注意到一个重点:就是极限误差的选择影响很大,如果你可以接受上下5分(平均分数)或上下5%(合格率)的误差,那需要的最小样本数就少很多了,拿上面的例子来说,这个座席代表的分数标准差是15分,平均分数是85分,在95%的信心水平下,分数介于上下3分(82分和88分之间),需要抽96通录音文件,但如果容许分数介于上下5分(80分和90分之间),那就只要抽35通就可以确认了,这是一个巨大的差别。
对合格率来说,全部录音档数量是2千通,如果合格率是90%,95%的信心水平下,合格率出现在87%到93%的范围(上下3%),至少要抽取322通电话,但如果放宽到85%到95%的范围(上下5%),这时就只要129通电话就能确认。
换句话说,到底要抽取多少通录音档才在数学上有意义,还是要看你希望要多精确,也就是你的绩效考评系统要求有多么的精确。
如果一个座席代表的分数是85分,另外一位是82分,两人的工资因此就会有差距,那你就必须要采用3分以上的误差来估算才行,如果你采用的是5分以上的估算,那这两位座席代表的差距是3分,完全在这5分的误差范围之内,他们的差距,太有可能是抽样导致的误差,而不是他们两位真实的情况了。
笔者对不同的标准差,不同的合格率,还有不同的极限误差,做了两张表,可以让读者直接查表,不必套用上面这么复杂的公式,可以直接找出自己到底需要多少样本数,有兴趣的读者欢迎写邮件来索取。
如果你的样本数无论如何没有办法这么多,那是不是说质检分数的测量就没有意义了?这倒也不是。在统计学上有另外一个现象对我们有帮助,就是如果这个月一个座席代表分数是79,另外一位是83,你千万不要马上下结论说,这个79分的座席代表比较差,因为很可能是抽样误差导致的。但如果,大家听到“如果”这两个字了,这个座席代表连续三个月都比另外一个座席代表的分数低4分以上,这在统计学上就有了相当的信心说,79那个座席代表的质检分数是低于83的。
所以有不少的呼叫中心对于这种0到100分的质检分数(负向打分也是一样),不是每个月都马上进行考核罚钱的,而是每一季,也就是会看三个月的变化情况。
请注意,笔者讲的是“变化情况”,不是平均值。如果你把座席代表三个月的质检分数拿来做平均,然后用这个平均值进行比较,仍旧在数学上是不成立的!
2 抽样偏见
我前面谈到的第一个问题是抽样数不足,造成质检分数在数学上是不成立的,第二个问题是统计上常说的“抽样偏见”。
前面我讲到,那个有2千多个座席代表的呼叫中心,有一个小姑娘抓到质检的漏洞,让她收客户线的电话,一通都没有被抓到,她利用的方法就是抽样偏见。
质检人员一般进行录音档抽样时,不会抽一分钟以下的电话,因为一分钟以下的电话,通常都是一般咨询电话,没有什么内容可以评分。
这个小姑娘就是抓住这个特性,只要她打算要收客户线,她就会在一接到电话就做,例如她会跟客户说,对不起,现在系统当机,无法服务,或是说,你的声音太小,请你挂机重打。
这通电话的通话时长肯定低于一分钟,自然没有质检人员会抓到她。
质检人员利用抽样的偏见,也能做很多文章,我在公开课上,很喜欢跟学员讨论这个话题。
质检员要怎样利用抽样偏见来整她不喜欢的座席代表?
也就是说,只要抽录音档的时候做点手脚,分数还没有打,这个座席代表的分数很自然就会比较低。
大家都知道答案吗?
这是质检员都知道的手法,就是抽比较长的电话,或是抽忙时或忙日的电话,或是抽抱怨的电话。这种电话在统计上,分数都倾向比较低。
要克服这问题,就必须要求质检员抽样时,要“均衡”。
怎么测量“均衡”?利用录音抽样均衡度测量表,也称为MITLA检查法,进行均衡性的检查,确保抽样的均衡性。
MITLA这五个英文字母分别代表:
Measurements :哪些项目需要考虑均衡度
Index :均衡度测量表尺设计
Time balance :录音时间抽样均衡 (忙时、闲时、忙日、闲日)
Length balance :录音档长度抽样均衡 (长的录音、短的录音)
Application-Type balance :业务内容抽样均衡(咨询、投诉等不同业务)
简单讲,质检员应该要把自己对某个座席代表评分的录音档,按照上面的T、L、A,就是长度、录音时间点、业务内容,画个频次表(笔者在上一期内容有介绍频次表的画法),跟其它座席代表进行比较,看有没有重大差异,如果有,对这座席代表的抽样,就是“不均衡”。
每个座席代表所有被抽检录音档的MITLA检查表,更是质检主管应该要亲自检查的。
毕竟抽样上只要有偏见,不管是质检员有意,或是系统抽出来就自然出现了偏见,都会对座席代表不利,造成严重的偏差。
3 质检员打分标准不一
我常常会讲这个故事,笔者念大学的时候,跑去修一门课,叫做“婴儿与母亲”。当时笔者只有19岁,一个小男生,跑去学怎么给宝宝洗澡,不是我在当时特别喜欢宝宝,而是那门课的老师,是一个慈祥的妈妈,我一堂课都没去上,还是拿到80分,因为她给的最低分就是80分。
我当时念物理系,我们必须要到数学系去修微积分,数学系里面都是被我们称为“大刀”的老师。我们就碰上了杨大刀,第一天上课,他就说:“同学们,我知道大家都会很认真,但30%的同学还是会被我当掉。”
我那门课就刚好拿了60分。
你会宁愿遇到慈祥的妈妈,还是杨大刀?
如果质检员的评分标准不一样,一个松,一个紧,两个质检员的分数是没有办法比较的。
从统计学的角度,如何检查两个质检员的评分行为是否一致?
利用笔者之前讲过的频次表,就可以很轻易的画出质检员的落点分布图,比较两个质检员的落点分布图,就很容易看出来两个人的行为差异。
上图是两个质检员在今年9月份打的质检分数,每个质检员分别对80人打了分数,然后把这些分数做成频次表(如果不知道怎么做频次表,可以看笔者上一期的文章有详细介绍)。
底下是这两位质检员打的分数统计:
把这两列人数放在一起画图,就看到上面的频次表。
可以看到第一个质检员(蓝色)整条线比较平滑,分数越高打的人越多,而第二个质检员(红色)显然行为跟第一位质检员很不一致。第二位在95分评出的人比90分评出的人少了不少,80分评出的人比75分评出的人又少了不少,也就是第二位质检员跟第一位相比,跑出来了两个低谷。
如果你把不同质检员的落点分布图画出来,发现类似上面这张频次表出现了不一致的行为,只有两种解释:一是这两组被测量的座席代表的确有本质上很大的差异(一般可能性较低);二是质检员测量用的尺歪了。
不管是哪一种可能,对管理者都是很有价值的管理线索。
不仅要比较质检员和质检员之间的落点分布图,借此来看出质检员打分的公平与否,同时也要看同一个质检员每个月不同的落点分布图,借此来检查质检员评分行为是否随着时间而改变了。
4 质检员打分出现不作为的情况
什么叫做不作为?这在问卷统计上,称为“不回答率”,也就是你发出了问卷,结果客户有的问题回答,有的问题却没有回答。
如果客户整个问卷都不回答,事情还好办些,最多就是不计算这个问卷,当它不存在。但有的问题回答了,有的不回答,这对统计结果会造成很严重的偏差。
质检员也会出现这种“不回答率”,而且很频繁。也就是说,质检员对于某些录音档会“有听没有到”,听到了,打分了,但都是打满分,或是一分都没有扣。
质检员为了避免引起座席代表反弹,很容易会产生这种“不作为”的行为,因为只要她扣了座席代表的分数,这通录音文件很可能就需要经过复核,座席代表会抗议,这通录音文件的分数变成了显著的目标。
要避免这通录音文件变成显着的目标,最简单的方法就是,让它满分过关,这样大家都开心。
但学过问卷调查的人都知道,这种“不回答率”有时比抽样误差造成结果的偏差,可能还要严重。
我们要怎么用统计学的办法侦测出质检员是不是真的在做她的工作,每通录音都有真的在打分呢?(待续)
本文刊载于《客户世界》2007年10月刊;作者为宏盛高新科技有限公司执行董事。
责编:admin
转载请注明来源:从统计学看呼叫中心质量管理
噢!评论已关闭。