智能服务实施——标注能力提升(中)
在上一章节中,我们提到当完成智能服务的知识管理设计之后,机器人已经可以进入上线阶段了,但其中还有一项对于训练师来说至关重要的能力也是必须要掌握的,那就是标注,本章节将继续带来标注能力提升相关的标注人员相关知识。
一、标注团队管理
对于标注团队的管理工作,笔者一般建议训练师团队负责人聚焦于标注培训管理、标注人力安排上面,通过培训,提升训练师们的标注能效和质量;通过标注人力的正确且合适安排,帮助整个标注团队提升工作效率和质量。
1、标注培训管理
上文中,我们提到标注的方式可以是自建和外包两种,针对不同标注方式也需要采用不同的培训方案。标注团队成员一般分为兼职和全职,外包性质的标注成员我们将其归到兼职标注人员的范畴。首先是标注新人的培训,包括:全职新人培训和兼职新人培训。
①培训流程
针对全职新人,可以先由团队负责人或培训负责人做部门层面培训,培训内容可以包括但不限于:人工智能基础知识培训,标注的工作的意义价值,标注团队的规章管理制度等。其次建议采用老员工带新员工的模式,将标注新人置于真实的标注任务环境中进行“以站代练”的标注训练,并通过新人第二个月绩效考核纳入到该成员的师傅(老员工)的绩效计算策略,以保障老员工对新人成长的关注和培训。
因为兼职人员的一次性工作特点(即标注工作结束后,标注团队不再与兼职人员产生联系),对于兼职的标注人员培训过程较为简单,训练师们可以参考图1。一般先由该标注任务负责人进行标注项目的总体介绍,标注规则的熟悉,标注的试标,试标结果答疑,并组织兼职标注人员进行标注考核。若考核不达标则淘汰该人员,达标则进入到标注任务执行环节,标注任务结束通过验收后结清标注人员的薪酬即可,其中若是表现较好的兼职标注人员可以纳入到标注团队中的兼职人才库作为备份存储,并适当给予阶段性奖金激烈兼职人员。一般兼职标注人员的薪酬结算建议按照计件模式进行结算,即:
薪酬=标注任务完成百分比*计件薪资*完成量+阶段性奖金。
除开上述提及的标注培训内容,标注负责人在实践过程中还需要结合实际训练工作进行适应性的动态调整。
图1:兼职人员培训流程
②在线机器人标注培训示例
在实际标注任务执行中一般会经历岗前培训、岗中培训、新标注需求培训三个阶段。
岗前培训阶段:
岗前培训阶段即训练师们标注工作上岗前的培训,可以参考上文中的全职和兼职培训即可。
岗中培训:
标注工作本身依赖于标注人员准确、细心的标注,因此在标注人员上岗进行正式标注过程中的监督至关重要。岗中标注培训的目的是为了对执行标注任务过程中发现标注合格率较低的训练师(尤其是全职)进行二次标注质检及阶段性成长重点关注,如:针对标注准确率较低人员,提升标注结果检查的数量,若该人员长期且多次未达标,可安排其主管进行长期监控,并体现在主管的绩效考核上。除此以外还有其他岗中培训方案,建议训练师们结合实际情况进行调整和裁剪(岗中培训也可以借鉴人工客服新员工管理方法,只要最终达到提升员工标注能效目标即可。)
新标注需求培训:
若标注小组承接新的标注需求(指标注内容与标注方式不同已有标注),标注负责人试标注后,根据新输出的标注规则、标注难点等规则类文档(即以文档形式管控标注组员的准确性)对标注人员进行标注新需求培训。
二、标注人力安排
标注人力的科学、合理安排将会影响到整个标注团队的运转效率,训练师可以参考以下三点进行相应的人力安排。
1、标注人力细则
在标注负责人对新标注需求试标评估结束后,紧接着的工作就是确认标注成本及对应工期所需要的投入的标注人力,并予以恰当安排。当新标注需求的投入人力不足时,负责人需要及时与标注需求提出方进行沟通,评估标注任务的重要紧急程度,若程度较低可以采用延迟交付日期的做法,若重要紧急程度较高时,负责人需与需求提出者一同积极构思引入资源,如:其他内部员工借调、支援、外包、众包标注需求、扩展标注团队等。
标注团队的人力安排建议以3人为一标注小组,在配置标注负责人与标注质检角色即可,标注人员的工作产量评估需要标注负责人先进行试标注结合标注难点进行,还要根据实际情况执行任务情况动态调整,如:某项标注任难度较高,且过往没有可以借鉴案例参考,在标注任务实际执行中,发现团队无法按照预算产能进行标注,就需要适当降低产能,延迟标注交付日期,以保障标注结果质量。
2、标注人力安排示例
建议训练师参考行业标注人力安排,基于标注人员总数,按照3人左右为一组的形式,将标注人员进行分组。标注岗位负责人需要负责标注小组的标注数据、标注质量、工作统筹等管理工作。
3、标注工作量评估示例
承接标注需求后,标注岗位负责人进行试标注结束后,需根据实际标注情况对整体标注量进行评估,包括不限于标注工作时间、标注人力投入、标注人员分组、个人标注效率等内容。若是内部借调形式扩展标注团队,标注负责人还需要考虑标注组员的其他工作量,合理安排标注人员的标注产出。
三、标注质量控制
1、标注质量控制细则:
为了更好保障标注结果产出,控制标注质量,一般采用3人成组的方式进行标注任务的承接,并规定具体质量控制规则方式,一般来说有两种方式可提供训练师参考。
第一种,小组拟合标注:每组标注同一份语料,标注结束后由质检人员按照总量20%进行质检,必须达到90%以上准确率才算该次标注通过,若其中有人低于90%以下,该人员重新标注,质检人员负责记录、跟进多次小组拟合标注中低于90%的人员。
第二种,每组由标注组长分配周期标注任务,并抽取其标注的总量20%进行质检,准确率同样需要达到90%以上才算过关。
建议:标注任务执行前期建议采用第一种方式,当标注人员熟悉标注后,且准确率趋于平稳状态时(由标注负责人和质检人员共同评估)可将标注方式切换为第二种,达到标注效率与标注质量二者间的平衡,两种标注方式持续时间可以根据实际标注情况动态调整。
2、标注前质量控制
①质量侧
标注负责人需根据试标注情况,在标注培训过程中先讲清楚标注的规则和难点有哪些,着重注意哪些点容易出现问题,并制作《标注规则及难点表》且在标注过程中不断完善更新内容(参考表1,注:不同类型的标注其规则与难点都不同。)
表1:标注规则表格模板
②控制侧
标注质量需要达到90%以上准确率,由标注组长负责评估准确率,抽检量为该人员总量20%以上。讲明不达标需要重标,标注组长必须对质量负责,若已经说明的质检要求难以达标,需要对应小组负责人给出具体证明。
3、标注过程质量控制
①质量侧
要求在开始标注后的按照规定时间段(例如:每天下班前)反馈标注结果汇总数据和标注的原始数据,并且撰写详细标准规则便于标注负责人可标注小组进行管控,实际标注过程中表格内容可自行调整。由质检人员查看标注质量情况,如有异常及时反馈标注管理人员。
②效率侧
长期的标注任务需要关注标注速度。通常在标注前期,标注的质量和效率都不高,前期要按时与标注人员进行标注复盘会议,将每人遇到的标注难点列出大家讨论,对于标注效率特别低下的人员,标注负责人要及时沟通和协调,想办法提升其标注速度。
③进度管理
标注任务需要在要求的时间内完成,根据项目持续时间的长短,标注负责人可按照每周的时间节点对团队进行提醒,确认完成进度。
四、在线机器人训练结果测试
完成训练后,训练师们的工作重心将由标注转移到训练结果(新模型)的测试,其实这里的测试环节的具体工作使我们前文中提及的,由测试训练师和研发团队根据新增知识或者功能点进行相应的准确度和完整度测试,在本章节中,我们将不对具体测试内容讨论而是聚焦于测试过程中的测试使用数据。对于人工智能模型的测试,训练师一般需要提前准备三类集合数据:训练数据集、验证数据集、测试数据集。
1、训练数据集
定义:训练数据集是同于训练人工智能模型的数据,即通过设置分类器的参数,训练分类模型。
如何理解:训练集相当于老师给学生做的练习题,通过很多的练习让在线机器人具备识别和应答的能力。
2、验证数据集
定义:通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的参数,即用来调整模型的参数。
如何理解:在前文中我们说到过不同的算法与不同的解题方式都能够达到最终的目标,但效率和效果的好与坏是有一定差距,验证数据集即是用来检验各个算法或模型在“准确率、精确率、召回率、F1-Measure”这四个指标上面表现情况。
3、测试数据集
定义:测试数据用来最终评估模型的能力。可以把测试集当作从来不存在的数据集,当确定模型参数后,可以使用测试集进行模型预测并评估模型的性能。
如何理解:即学生做完练习题后,老师出的考试题,这部分的题最好是不能与练习题重复,唯有这样才更好的检验学习、训练的成效。
在实际的测试过程中,对于三种数据集合准备的比例,训练师可以参考下面三种数据集的分配比例进行测试:60% 训练数据集、20% 验证数据集、20% 测试数据集。即假设总体数据量为10000条,其中6000条是训练数据集,2000条是验证数据集,剩余2000条是测试数据集。通过合理的训练集、测试集、验证集数据分配能够在有限的数据条件下最大程度保障训练效果。
作者:苏钰
本文刊载于《客户世界》2022年7月刊。
转载请注明来源:智能服务实施——标注能力提升(中)
噢!评论已关闭。