当前位置:主页 > 关于华镇 > 最新动态 >

依图做语音了!识别精度创中文语音识别新高点

发布日期: 2019-01-02 15:09

依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔?

2018年底,智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。

技术上,在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%[1],相比原业内领先者提升约20%,大幅刷新现有纪录。

产业上,依图联合微软推出基于Azure云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者。

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司,我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示,依图是一家“人工智能公司”。

“作为语音行业的‘新生’,我们还是有很多向‘老生’学习的地方,但我们立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始,依图要做世界最好的中文语音识别

万物互联,语音为先。

语音识别是AI理解世界最重要的组成部分,也是AI能听会说善理解的必要条件。

近年来,深度学习的爆发驱动了语音识别技术的高速发展,催生了一大批智能语音创业公司,其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞,百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品,再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去,依图为何选择这个时间点入局?

“我觉得竞争都还没开始,不存在入场的问题。”依图科技联合创始人林晨曦在2018年1月接受新智元采访时说

智能语音市场看似巨头林立,但林晨曦认为创业公司大有可为,依图不仅要做语音和自然语言处理,还要做到像人脸识别那样,超越人类水平。

依图技术负责人表示,尽管一些机构宣传其语音识别已经达到乃至超越了人类水平,但多数情况下,这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词,或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器,人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈,例如在发音不清楚的情况下,如何结合更强的上下文语义信息给出准确的语音识别;如何在语音识别的全链路上,优化远场识别的性能;特殊情况的处理,比如人称代词、语气词助词;还有鸡尾酒问题(多人同时说话下,能够准确识别其中一人的语音)、电话场景的识别(低采样率下的语音识别)。

此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。

依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队,BAT差得远

13524859176、13296017858