智能服务实施——标注能力提升(上)

    |     2022年8月10日   |   客世原创   |     评论已关闭   |    1550

在上一章节中,我们熟悉与掌握了知识管理的另一个重要构成部分——知识内容答案,知识内容就像是手表的指针和数字,是智能系统直接跟客户接触的载体,知识内容的好坏直接影响智能服务最终成效。当我们完成智能服务的知识管理设计之后,机器人已经可以进入上线阶段了,但其中还有一项对于训练师来说至关重要的能力也是必须要掌握的,那就是标注,一般来说标注工作主要包括:根据特定模型需求进行数据标注和打标签,并针对训练完成后的模型测试上线,过程中对发现的Badcase对话例优化等。

1、标注概述

1.1、标注的定义

在线机器人模型训练的基础是标注又称为数据标注,即训练师为使用标注工具通过打标签、分类、画框、注释等方式对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。初期标注好的数据会被用来训练算法模型,然后应用到语义识别、图像识别、语音识别等不同领域。通常来说,数据标注得越准确、数量越多,模型的效果就越好,自然,产品的效果就会更好。

1.2、标注的分类

数据标注的对象根据不同的人工智能模型可以分为文本、图片、音频、视频四个种类:

文本标注主要包括情感分析、知识库的优化、关键词提取、文字翻译、搜索引擎优化等。比如识别一句话蕴含的情感,翻译等等;

图片标注主要包括图像分割、物体检测、图像语义理解、图像生成、图片加注等服务;

音频标注主要包括对全球主要语言和语料、方言、特殊情景语音进行识别标注,语音识别等等。

一般在线机器人来说,训练师们的标注主要面向于文本内容的标注。

标注的工具一般会由算法工程师提供给各位训练师,常见的标注工具有:

Stanford CoreNLP – Natural language software,NLP标注工具BRAT,labelme,Doccano,LabelImg等,有的机器人训练也会考虑到数据安全的要素采用EXCEL进行标注。

1.3、标注方式的选择

标注工作是训练工作中需要投入人力数量最为庞大的工作之一,不同标注方式的选择将会直接影响标注工作的质量和效率,从而影响整个模型训练的质量,接下来笔者结合长期智能服务产品训练经验为各位训练师分享一些常见的标注方式及各个方式的优劣。

图1:标注方式的承接对象

如图1所示标注方式从承接对象来看分为两种,一种是自建标注团队,另一种是将标注外包给其他公司。

(1)自建标注团队

定义:使用企业全职人员专门负责数据标注工作。

适用范围:企业自研在线机器人系统,系统服务范围较广且负责用户数量多样化,经常需要对在线机器人进行训练迭代优化升级。

优点:自建标注团队能够最大程度保证企业数据安全,数据不会外泄,同时因为标注团队与训练师团队处于同一物理空间办公,互相之间的沟通不会存在障碍。如:标注团队针对标注数据存有疑问时,可以直接组织标注需求提出方与标注任务执行方的会议,共同探讨;最后全职的标注团队,其标注质量可以依赖相关的绩效打分确保标注交付质量。

缺点:自建标注团队往往成本较高,因为标注算是整个训练工作中高度依赖密集劳动力的工作;其次自建标注团队存在边际管理成本,即每增加一定数量的标注人员,相应的管理成本、培训学习成本等显性成本和福利待遇等隐性成本都会有较大的增加;最后自建标注团队,一般还需要搭建企业内部的标注平台用以提升标注效率和标注质量、便于标注过程管理。

(2)标注外包

定义:将在线机器人标注训练需求外包给市面上的标注服务企业。

适用范围:企业在线机器人刚刚起步中,标注需求量较小,且训练师团队标注体系不够成熟时期。

优点:外包标注需求对比自建标注团队不存在较多的管理和培训成本,能以较为便宜的价格实现标注任务,同时在外包期间通过商业合同规定交付质量和验收标准可以转嫁、降低标注风险。

缺点:外包标注首先无法保障企业数据安全,会造成一定的数据外泄,同时还需要注意标注数据的脱敏,避免因为敏感数据而导致其他问题;其次外包标注合同将会成为一把双刃剑,训练师即可以用合同要求标注质量,也会存在因为遗漏标注前未预知的标注问题,而导致标注质量较低(如:对用户愤怒情绪识别,在标注合同中,没有明确“呵呵”是愤怒情绪,导致外包标注结果缺失这一部分,但因合同未明确,外包标注公司一般不会承担未明确标注规则而产生的返工);最后是需要训练师有很较强的项目管理能力和外包标注商是否靠谱的识别能力。这里建议训练师若是采用外包的方式进行标注,可以通过科学抽取标注数据(即最大程度保障试标注数据的全面型)由外包公司进行试标注后,评估其标注质量判断该公司是否靠谱。

(3)标注众包

定义:标注众包分为对企业内部众包分担标注任务和对企业外部提供众包标注平台及相关标注工具。

适用范围:前者面向于企业标注需求量较大,自有标注团队无法承接,采用众包方式由企业内部消化,如:前面章节中提及客服中心的相似问知识竞赛也是企业内部标注众包的一种形式;后者则是有成熟的标注体系和标注平台后,将标注作为单独产品商业化,为其他有标注需求的企业和具备标注能力的个人提供交易的一种平台。

优点:前者在解决标注的需求的同时,降低标注数据外流的风险;后者能在满足自身标注需求的同时作为单独商业化平台能够为企业提供利润。

缺点:前者需要非常详细明确标注规则,否则众包标注质量较低;后者需要投入相应的人力负责人众包标注平台的运营、推广工作。

(4)校企合作标注

定义:由企业牵头与相关学校成立标注合作实验室,企业提供标注工具、标注培训等赋能内容,由学校提供标注人力,进行标注实践。

适用范围:企业标注需求量巨大,且对标注有严格的成本控制。

优点:校企合作标注成本较低,且能够通过提前培训、提前考核的方式,间接为企业人工智能训练师团队培养后备人才,同时也有助于企业与学校开展其他深度合作。

缺点:校企标注质量不高,需要由专职人力进行校企标注项目事宜负责。

2、标注流程全景

标注是一种高度依赖于动力的岗位,对于标注岗位的管理,建立科学、通畅的标注流程是训练师团队负责人需要重点聚焦的部分。在建立标注流程时,首先需要明确标注的全景流程,即标注需求的提出、承接、标注任务执行、标注结果检查、标注过程控制等。图2为笔者设计的标注管理流程案例,为训练师创建流程提供一些参考。

图2:标注管理流程案例

标注对象:

首先确认标注执行流程中所有干系对象:研发团队(标注需求产生团队)、训练团队(标注执行团队)、其他团队(产品团队等)。

提出标注需求:

标注需求方提出标注需求文档包括:项目的背景、意义及数据的应用场景,且包含项目的标注工具、任务描述、标注方法、正确示例、常见错误、试标注语料、标注验收要求等内容,需求文档汇总至标注团队的需求承担人,一般标注需求承接人都是由标注训练师团队负责人担任。有些比较大的标注团队也会单独设立专门的标注需求承接岗位,该岗位一般由具备丰富的标注经验的训练师担任。

需求试标注:

标注团队负责人根据标注需求,对需求方所提供的是标注数据进行实际标注测试,标注负责人需要评估标注任务的难以度及标注时长,确认标准相关疑点,补充缺少标注规则,填写标注测试表(训练师可以参考表1结合企业训练工作特点设计测试表),用以作为标注承接后标注人力安排的必要条件。

表1:简单标注测试表

标注团队人力承接:

确认标注需求后,标注负责人需要结合当前团队标注任务执行情况,标注人力剩余情况,进行标注承接的人力安排。

标注结果验收:

标注验收一般由标准团队内部的验收小组,根据标注需求中的验收规则进行成果验收,验收合格后提交至需求方进行最终验收。

3、标注规则

标注和训练过程实际上就是将人类的思维和学习思考方式教给在线机器人,这个过程中教学的一致性是非常重要的。如果训练或者标注出现模棱两可或者同一内容下两种对立的思维这将导致在线机器人出现混乱,如:在线机器人的情绪识别标注中,“呵呵”一词如果是两个年龄差距较大的训练师进行标注,年轻的训练师可能会认为“呵呵”是客户情绪的异常,年龄较大的训练师则会认为“呵呵”没有太多实意,就是客户在聊天的过程中的语气词,这样的标注结果要是给到机器人,机器人也就无法分辨“呵呵”到底属于什么类型的情绪变化了。所以在实际执行标注过程中,标注规则对于标注人员最终产出的标注结果与预期结果之间的一致性差异,起到至关重要的作用。接下来我们一起看看在标注过程中,训练师还需要注意哪些问题?

(1)定义所需数据和预估数据量

标注团队执行标注任务前需要明确以下4点:

明确标注数据应用场景及目标:

明确标注项目所需的标注数据类型、量级、用途及应用场景;帮助加深训练师对于任务理解,提高准确率。

明确数据结构:

明确数据的管理结构,便于标注任务分配与回收过程与结果管理的高效。

明确数据命名规则:

明确数据与标签文件的命名规则,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,数据文件名与标签文件名应保持一致;保证数据存储不会错乱,使用EXCEL作为标注工具的训练师们需要格外注意这点,如:【0601-A组-小明】情绪识别标注任务。

明确标注其他细则:

明确标注任务的获取方式、标注的工具、标准的类型、标注小组人员分工等其他细则内容。

(2)标注规则

对于具体的标注规则撰写,标注负责人一般需要说明规则需明确项目的背景、意义及数据的应用场景,且包含项目的标注工具、任务描述、标注方法、正确示例、常见错误等内容。经过标注负责人试标注后应该及时对标注规则进行补充,且在标注执行过程中,标注训练们发现原有规则未覆盖内容,也应该及时上报至标注团队负责人处,进行标注规则的补充,规则的补充需要经过需求方的评审和同意,用以确保训练项目最终实现目标的一致性。以下为标注规则具体要素的内容的说明,供训练师参考:

项目背景:

概述标注项目的背景或数据标注需求产生的场景。

版本信息:

标注该说明的当前版本编号、发布日期、发布人、发布备注(发布原因或迭代原因)及历史迭代信息(历代版本编号、发布日期、发布人、发布备注等)。

任务描述:

概括标注项目的主要任务,包括标注项目的关键信息、数据形式、标注平台、主要标注方法、期望交付时间、正确率要求等。

保密要求:

对于数据的保密级程度,数据需求方须在规则中列明,明确保密责任,标注方对当前承担的数据标注任务承担保密职责;保密要求在外包标注的三种方式应该格外注意。

标注方法:

给出数据需求方所需数据对象的严谨定义,明确在协定的标注平台上使用何种标注组件、标签及全部操作。如:情绪标注,使用无情绪、愤怒情绪、喜悦情绪、无法识别作为标注标签;转人工标注使用:不应转人工、应转人工、无法判断作为标注标签,相应的标注平台的操作方法等。

正确和错误示例:

通过图片、图文、视频等的形式,示范正确的标注方法或成果,标注需求方应明确标注结果的产出,标注样例应覆盖特殊样本的标注示例。

如:情绪标注中,“我要投诉你们”是愤怒情绪,“你们的服务不错,点赞”是喜悦情绪,“好的,我知道了”是无情绪,都为正确标注。

错误标注实例:“你们怎么能这样做”是愤怒情绪但是标注为无情绪。转人工标注中,“把你们领导叫来”是转人工,“这个产品怎么使用”转人工标注是错误标注等。

注意事项:

除开上述的正确、错误示例、标注工具使用等内容,标注需求方还需要明确出所有标注过程中可能会出现的注意事项。

质量要求:

标注需求方需要明确标注的质量要求,具体要求一般可以从“定性”和“定量”两个角度进行考虑。定性:标注正确和错误的定义;定量:即整个标注任务的准确率:正确率达到80%或其他百分比例。标注的总数量,如:共标注1万条等为通过要求,需要格外注意的是,无论是什么类型的标注都无法做到100%的正确率,定量设计要合理。定性和定量设计对于标注质量保障非常重要。

接下来笔者为各位训练师展示一份关于转人工模型训练的标注规则,为训练师撰写规则作为参考(表1)。

表2:转人工模型训练的标注规则

 

作者:苏钰

本文刊载于《客户世界》2022年6月刊。

转载请注明来源:智能服务实施——标注能力提升(上)

相关文章

噢!评论已关闭。