中国智能语音行业的历史沿革、现状与发展动态分析
一、智能语音行业的相关概述
随着社会科技的进步以及事物和问题的复杂程度提高,人们倾向于借助计算机的思维和技术,并结合其他学科去寻求一些新的解决方法。
人工智能便是这一背景下的产物,人工智能是为研究、模拟人类智能的理论、方法、技术及应用系统的一门技术科学,其使用机器代替人类实现认知、识别、分析、决策等功能,本质是对人的意识和思想的信息过程的模拟。而智能语音技术是人工智能领域的重要分支。智能语音技术涉及多类型学科,其核心技术包括语音合成、语音识别、声纹识别、自然语言理解、语音去噪等关键技术。
智能语音行业是以语音为研究对象,对语音语义进行识别、理解以及生成,使机器具备自然语言处理能力,并且利用其核心技术赋予机器“听觉”、“理解能力”以及“语言能力”。伴随智能语音技术的发展,智能语音的应用覆盖多个场景,如智能家居、智能车载、智能医疗、智能客服、智能教育等。
智能语音是可以实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息大约占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。
人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统,具体的发展历程如下表1所示。
表1 智能语音的发展历程
二、中国智能语音行业的现状
我国智能语音行业发展迅速,近年来行业规模保持稳定增长。2014年中国智能语音行业市场规模为28.7亿元,到2021年年末中国智能语音行业的市场规模增长可至290亿元,预计到2023年,我国智能语音行业市场规模将达到655.1亿元,具体如下图1所示。
图1 我国智能语音行业市场规模
数据来源:沙利文数据中心,其中2021年-2023年数据为预测数据
三、中国智能语音行业的应用
1.消费级市场的应用
智能语音助手赋能多类智能终端,构建全产业生态链。消费级智能语音交互是人们接触智能语音最普遍的渠道,从手机语音助手、家庭智能音箱、智能耳机、智能电视到智能车载等等。
语音助手是用于终端的语音控制程序,通过智能对话与即时问答的智能交互,让智能机器助手帮助完成用户指派的任务。2011 年第一款手机语音助手 Sirl伴随IPhone 4S 亮相,各大厂商纷纷入局。从2017年下半年开始,通过开放语音生态系统,进行产业内合作,语音助手向家居、车载、可穿戴设备等领域不断延伸和迁移,构建出全产业生态链。
(1)通过语音助手或语音转写能力提供音频内容与任务处理服务。目前带有智能语音能力的消费级硬件大体可划分为智能家居、儿童产品、随身产品、车载设备、商务产品等。部分产品的交互特性更强,需要通过语音交互为用户提供音频内容和某些任务处理操作。
(2)为语音交互蓝图铺路,成为智能生活入口。近年,智能音箱作为智能生活的“入口”的地位逐渐被夯实。
(3)提升输入效率,满足个性化表达需求输入法是智能语音技术在C端的重要落地场景,语音输入(多语种支持)、智能纠错、语音翻译等功能开始成为标配;语音变声、语音斗图等针对年轻群体的创新功能也相继推出。
2.企业级和公共级市场的应用
平台化技术输出和解决方案两类模式,解决方案业务占比高。智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:
一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAl、百度语音技术采取面向开发者免费的策路。
二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。
2.1 智能语音与医疗健康
智能语音与医疗健康的核心价值在于提升输入效率和查询效率。医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案室一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。而智能语音这些领域的应用和突破在当前常态化的疫情防控以及新冠肺炎疑似患者的检测和确诊病例的治疗过程中都可以提供全新的支撑。
2.2 智能语音与公检法
智能语音在公检法领域的应用主要是帮助公检法系统实现便捷办公和战法突破,主要由六个部分组成:
(1)智能庭审,采用多语种多方言语音识别、语音合成等技术,结合针对法律业务的专门优化,实现庭审纪律自动播报、庭审笔录自动生成、庭审笔录音频即时回听和快速检索等功能。
(2)电信网络反欺诈,声纹识别电信网络反欺诈系统会自动提取声纹并与黑名单做对比,提示重点人员可疑行为,对语音内容关键词识别动态预警,提示可疑案件与犯罪意图。
(3)虚拟法官,通过语音合成和虚拟形象生成,在互联网诉讼平台上,以虚拟AI形象同当事人进行初步沟通,协助真人法官完成线上诉讼接待等重复性的基础工作。
(4)声纹研判战法,声纹鉴定与语音分析系统能够进行语音片段检索、语音自动检测分离和声纹模拟画像,可协助鉴定人员自动在音频数据中检索出特定的音素及相似的音素,进行语音自动比对,快速确定犯罪嫌疑人身份。
(5)智能接警,由窗口报警自助录入和电话警情自动记录组成。
(6)警务语音语言服务,针对公安领域专业词汇做专门优化,提供警用语言输入法和机器翻译等服务。
2.3 智能语音与教育
智能语音与教育应用于教、管、测、考等环节。智能教育领域,Al课堂的建设进入快车道,既解决家校之间、线上线下之间学习资源互通的问题,还通过多模态识别收集课堂学情信息并做数据精准分析。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏和广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。
2.4 智能语音与互联网内容审核监管
特定声音检测和语音识别技术帮助净化网络环境。互联网的变迁使音视频内容的传播得以快速发展。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频外,通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。
2.5 智能语音与泛传媒
增加媒体产能,丰富传播形式。智能语音在泛传媒领域的应用主要包括合成主播自动播发稿件,将外语音视频新闻或节目自动翻译、根据画面同步匹配字幕,及为新闻稿件文字自动合成语音等。以自动播发稿件为例,2019年全国两会期间,新华社AI合成主播共播发稿件236条,为资讯内容的生产提供了新的方式;而音频与文字之间的转换则丰富了媒体的传播形式,使用户能够按需、按喜好获取资讯服务。
3.市场参与者的应用
中国智能语音行业热度市场较为理性,入局企业数量252家。据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。
3.1 代表性企业案例——科大讯飞
科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。目前科大讯飞的人工智能产业生态已经形成三个同心圆:第一层是核心层。围绕“讯飞超脑”,科大讯飞的教育BG、智慧城市BG、消费者BG、智慧政法BG、智慧医疗BU、智能服务BU、智能汽车BU、运营商BU、工业智能业务部等共同构筑科大讯飞人工智能产业生态的核心层。第二层是探索层。在探索性方向,科大讯飞鼓励内部实施创业机制和战略合作机制,通过资本纽带的形式推动人工智能产业化。第三层是开发层。围绕人工智能核心开发平台,科大讯飞为创新创业者提供技术和数据支持,帮助创新创业者在各应用领域进行业务创新探索,将自身源头核心技术提供给平台伙伴,推动整个产业生态构建,截至2019年12月31日,讯飞开放平台已聚集超过112W开发者团队,总应用数超过73W,累计覆盖终端用户数26.3亿+,A.I.大学学员总量达到33.3W+,以科大讯飞为中心的人工智能产业生态持续构建。
3.2 代表性企业案例——依图科技
依图科技创立于2012年,是人工智能独角兽公司,担纲科技部“视觉计算国家新一代人工智能开放创新平台”。依图的愿景是参与人工智能领域的基础性科学研究,全面解决机器看、听、理解的根本问题,建设更加安全、健康、便利的世界。因此,除已取得重大成就的计算机视觉领域之外,依图在语音识别与自然语言理解领域也厚积薄发。2018年底公司首次对外公布语音识别能力,甫一公布便取得亮眼成绩,语音识别算法大幅刷新全球最大开源中文数据库AlSHELL-2上的字错率记录,字错率仅3.71%,比过去领先水平还进一步提升约20%;2019年依图NLP成果荣登《Nature Medicine》,这是该期刊全球首次刊发中文NLP在临床智能诊断的研究成果;2019年荣获国际权威声纹识别竞赛VoxSRC冠军,并首次将等错误率(EER)记录刷新至1%以内;2019年,在由网信办、工信部及公安部三部委指导的首届中国人工智能多媒体信息识别竞赛中,依图于11个任务中斩获10个A级,为所有参赛者中最多,其中包含语种相关关键词和声纹识别两项。
四、中国智能语音行业的保障
根据上文对我国智能语音行业的分析,可以发现我国智能语音行业市场发展速度快、潜力大,目前已存在以科大讯飞为代表的智能语音上市公司,并且智能语音技术在教育、医疗、公检等领域已经得到应用。智能语音的良好发展不仅得益于我国人口红利形成的巨大需求和市场,还得益于我国以科技企业代表对人工智能和智能语音行业的持续投入和深耕,也与我国政策、方针等的大力支持是密不可分的,这些因素是我国智能语音行业发展的重要基石和保障。
1.中国智能语音行业的政策支持力度大
我国高度重视智能语音技术进步与行业发展,智能语音已上升为国家战略。为了在新一轮国际科技竞争中掌握主导权,我国加快人工智能和智能语音行业的布局与规划。2017年,工业和信息化部出台的《促进新一代人工智能产业发展三年行动计划(2018-2020 年)》;2018年,国务院办公厅出台的《关于促进“互联网+ 医疗健康”发展的意见》;2019年,最高人民法院出台的《最高人民法院关于深化人民法院司法体制综合配套改革的意见》;2020年,教育部、国家发展改革委、财政部联合出台的《关于”双一流”建设高校促进学科融合,加快人工智能领域研究生培养的若干意见》等重要文件中都明确提出了加快智能语音技术在医疗、公检等领域的应用以及智能语音的学科建设和人才培养,进一步促进我国人工智能和智能语音行业发展。此外,中国已有逾 20个省市出台了人工智能产业鼓励政策,其中江苏、上海、广东、北京、浙江是国家大力发展人工智能的热点区域。在国家政策以及地方配套政策的推动下,人工智能、智能语音等领域产业链初具规模,与产业下游应用领域的结合不断深入,推动经济社会各领域从数字化、网络化向智能化加速提升。
2.中国智能语音技术的支撑
我国语音识别研究一直紧跟国际水平,国家层面也十分重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
3.中国智能语音行业的市场需求大
随着我国经济的高质量增长以及基于我国巨大的人口红利,我国智能语音行业市场需求大、增长快。2014年我国智能语音行业市场规模仅有28.7亿元,到2018年,智能语音市场规模增长至157.9亿元,年复合增长率为53.2%,并根据历史数据预测,到2023年,智能语音行业市场规模将达到655.1亿元,2018 -2023年的年复合增长率为32.9%。
五、中国智能语音行业的制约因素
1.行业基础层技术存在短板
目前,中国智能语音行业基础层的核心关键技术积累较薄弱,算法、芯片及基础元器件的原创科技实力与国外企业相差较大。智能语音行业基础层核心技术实力欠缺,如芯片,传感器等核心元器件,不仅影响行业原创科技成果的输出,并且核心技术或生产环节长期依赖国外,不利于中国智能语音企业建立国际竞争优势。智能语音芯片等核心基础元器件从投入到规模化生产的周期较长,在产品研发至生产期间所需资金投入较大且回报周期长,致力于基础层核心)元器件研发的企业需面临较大的资金压力。近年来,智能语音行业较好的发展前景吸引资本涌入,中国国内资本持续加码智能语音领域,但资本多集中在智能语音行业的应用层,在回报周期较长的基础层领域缺乏布局。智能语音基础层核心元器件的技术瓶颈导致企业的国际竞争力不足。中国近90%的芯片需依靠进口,行业对于进口芯片等基础元器件的进口依赖,消耗了大量的外汇储备,导致智能语音产品的生产成本居高不下,压缩行业的获利空间,制约智能语音行业的发展。
2.语音识别技术“鲁棒性” 问题凸显
语音识别技术在智能语音下游的应用逐渐广泛,由于语音信号的频谱受到复杂的环境因素干扰,如信道差异、测试环境差异等,语音识别系统的“鲁棒性”受影响,智能语音硬件对于用户需求识别的准确度降低,影响消费者体验。语音识别的完整过程包含语音信号识别、静音切除、声学特征提取等多个环节。基于语音信号的多样性和复杂性,语音识别系统在保证环境安静、语料的清晰、标准的情况下才能实现用户需求的准确识别。在智能语音硬件的真实使用场景中,方言、噪音、远场、断句等情况不可避免。语音采集地点变更导致的环境及背景噪音差异、语音信号传输载体方式多样导致的传输信道差异,都将造成语音信号的频谱畸变,导致智能语音系统对于用户需求的准确识别产生偏差。语音识别技术的成熟度将影响各应用领域智能生态的构建及发展,语音识别技术的“鲁棒性”问题亟待解决。
3.自然语言处理技术尚不成熟
目前,自然语言处理(NLP)技术在人机交互领域仅停留在浅度处理层面,智能语音设备无法保障智能语音系统对于用户需求识别的准确率。自然语言处理(NLP)技术主要包含三个层面,分别为词法分析、句法分析、语义分析。在语义分析层面,机器对句子的理解只能做到语义角色标注层面,即标出句中的句子成分和主被动关系等,词义消歧是制约自然语言处理(NLP)技术的最大阻碍。语音识别系统在完成切词、标注词性以及词语识别后,需要对每个词语进行理解。但由于一词多义的情况无法避免,机器无法比拟人力基于语言环境和知识储备消除各种歧义的能力,因此基于自然语言处理技术的语音识别系统在实际操作情况并不理想。
六、中国智能语音行业的未来展望
1.行业将大力发展深度集成语音Al芯
基于语音交互为用户带来的便利性,智能语音技术在各行业应用程度日益加深,各领域智能终端产品逐渐普及。在传统智能语音解决方案中,语音识别技术需在云端进行计算,庞大的数据和运算量导致设备运行成本和功耗居高不下,且易出现语音交互“时延”的问题,影响用户的消费体验。Al芯片的算力决定了智能语音处理的速度以及语音交互的便利性,因此行业将大力发展深度集成语音Al芯片。深度集成语音Al芯片利用主要算法和芯片架构深度集成,将芯片和语音识别算法技术组合成语音模块,放置在设备中。用户只需向设备发送指令,设备中的语音模块通过麦克风将语音导入设备变成电信号,语音模块再将电信号提取出来进行运算,从而实现“人机交互”。深度集成语音Al芯片拥有较大的数据存储空间,无需将语音语料上传至云端进行计算,保护信息安全性。深度集成语音Al芯片降低了设备的数据运算量及功耗,在节约设备运行成本的同时,提高智能语音处理速度,提升消费者的用户体验。
2. 行业将构建智能语音专利池
目前,中国智能语音行业进入快速成长期,语音技术在各下游场景的商业化应用日益广泛,推动智能语音产业分工的细化以及科学技术的密集化。落地的智能语音产品会涉及众多专利技术,且分属于不同所有者,众多的专利请求、复杂的专利授权、以及高额的专利侵权赔偿等问题将阻碍智能语音新技术的实践运用。因此,中国智能语音行业有望建立智能语音专利池,引导和促进智能语音技术跨行业的实施和应用,推动语音相关产业的发展,智能语音专利池的建立可以有效降低交易成本,消除专利实施中的授权障碍,减少企业间的专利纠纷、有利于专利技术的推广应用。专利权人可以向智能语音专利池贡献自己的核心专利,同时享有免费使用其他专利人专利的权利,免去了专利权相互交叉许可的交易成本。专利的有效管理消除了专利实施中重复授权的障碍,有效降低了专利许可中的交易成本,满足行业需求的同时,提高社会经济效益。构建智能语音专利池可以促进专利权人的相互合作,形成专利权人的利益联盟,使其共同开发研究智能语音产业的新型技术,保持智能语音专利池的先进性,实现利益最大化。此外,智能语音专利池的建立将提高我国智能语音企业的国际竞争力,实现优势互补。
3. 人工智能融入企业战略
在《MIT斯隆管理评论》(MIT Sloan Management Review)和波士顿咨询公司(BCG)联合开展的2019年人工智能全球企业高管调研与研究的主要发现中,90%的受访者认为人工智能可以为他们的企业带来商机。此外,越来越多的领导者认为,人工智能不仅是机遇,也是战略风险。因此,让人工智能融入战略,充分利用人工智能赋能战略,也是管理者需要考虑的问题。如果人工智能计划不是企业商业战略的核心,它们就不太可能创造出重要的价值和规模。如果企业当前的商业战略忽视了人工智能的风险或机遇,那么很可能需要对战略进行重新审视。
参考文献:
[1]朱家泉,付晶晶.智能语音助运营商智慧家庭业务落地[J].中国电信业,2021(05):78-80.
[2]李国光.智能语音在数字出版领域的应用探析[J].科技传播,2021,13(08):31-33.
[3]刘丽.基于智能语音的人机交互在智慧交通服务中的应用[J].中国交通信息化,2021(04):129-131.
[4]罗建勋.智能语音转写平台的应用[J].现代电视技术,2021(04):143-146.
[5]孙楚音,黄孟祺,唐德鹏,魏书杰.中国智能语音产业的发展潜力研究[J].科技经济导刊,2020,28(02):185+184.
[6]任智.浅析中国智能语音产业的发展潜力[J].广西质量监督导报,2019(08):93-94.
作者:石云;CC-CMM标准组织研发总监;
本文分别刊载于《客户世界》2021年9月刊,10月刊。
转载请注明来源:中国智能语音行业的历史沿革、现状与发展动态分析
噢!评论已关闭。