当前位置:主页 > 关于华镇 > 最新动态 >

对话搜狗陈伟:机器同传的关键是做好语音识别

发布日期: 2018-11-13 10:17

近日,在IWSLT(InternationalWorkshoponSpokenLanguageTranslation)国际口语机器翻译评测大赛上,搜狗击败其他对手获得BaselineMode(基线模型)赛道冠军。

  IWSLT是国际口语机器翻译评测中的最具影响力之一的大赛,从2004年开始至今已举办15届。本届比赛吸引了搜狗、科大讯飞、阿里巴巴、爱尔兰ADAPT中心、美国约翰霍普金斯大学、美国应用科技公司APPTEK、美国空军研究实验室AFRL等国内外知名大学、研究机构与公司参加。

2

  ▲搜狗语音交互中心技术总监陈伟

  围绕搜狗在本届口语机器翻译测评大赛中的表现以及其背后的技术探索,今天少数几家媒体与搜狗语音交互中心技术总监陈伟等人进行沟通,看看搜狗近两年机器翻译道路上又有哪些新的探索。

  一、赛道选择出于实战考量

  本次的国际口语机器翻译测评大赛主要考验的是AI从英语到德语的语音翻译,主要分为两个赛道,一个是Baseline(基线)模型,另一个是端到端模型赛道。搜狗本次参加的是Baseline赛道,并获得该赛道的第一名。

  而在本届的端到端模型赛道上,科大讯飞则获得了第一名。搜狗为何在本次比赛中选择了Baseline的模型赛道而非端到端赛道呢?

  搜狗语音交互中心技术总监陈伟介绍道,Baseline模型是目前做口语机器翻译比较成熟的方案,由机器像流水线一样逐一进行语音识别、机器翻译、语音合成等的方案;而口语机器翻译的端到端意味着直接输入英语输出德语口语,目前还处于学术界的一种探索,尚在应用的早期。

  他们在本次比赛中选择了Baseline的模型赛道,主要原因是出于实用性考量。2016年11月的世界互联网大会上,搜狗便推出机器同声传译技术,经过过去2年的产品实战,搜狗想要借助这场比赛检验自身在语音翻译上的实力。

  陈伟称,翻译是搜狗几个比较大的战略方向之一,他们希望通过产品实战把技术打磨好,并在真实的场景中检测一下自身实力。本次比赛其大约投入十多人的团队,主要来自内部语音识别、机器翻译、NLP(自然语言处理)、数据资源等多个团队。

  此外,搜狗在机器翻译的端到端应用上也有一些前沿性探索,但该技术短期内并不能落地。

  在他看来,小领域可控制的端到端模型更有价值,比如语音识别或者机器翻译这样一个环节的端到端在实际应用中更加可靠,而端到端的口语机器翻译至少还有5年以上的路要走。

  二、要把语音识别、机器翻译的中间环节做好

  陈伟也借着这场口语机器翻译比赛谈了他们对于机器翻译同传的一些新思考,他称早期认为机器同声传译就是语音识别+机器翻译,近两年在单点模型迭代的同时,他们在实际落地钟发现,要把语音识别与机器翻译的中间衔接环节做好,才能够真正实现领先。

  他说,“想要做好机器同声传译,不仅仅是要把语音识别、机器翻译做好,还要把中间环节做好,这来自搜狗同传产品、实践中的积累。”

  在Baseline这种流水线式的模型中,分为单点模型的迭代与不同环节之间的衔接。在单点模型上,搜狗通过多模型融合的方式来做语音识别与机器翻译,保证不同维度的特征,从而迭代效果。

  科大讯飞无疑是语音赛道一位资深的老牌玩家,当谈及来自科大讯飞的竞争时,陈伟称,科大讯飞是一家很值得尊敬的公司,它们在技术细节上做的很扎实。

  但他认为搜狗在语音识别技术上并不输于科大讯飞。随着2010年后深度神经网络在语音识别与机器翻译上的应用,对于新技术,大家都处于同一起跑线,这也是行业后入局者的机会。同时,搜狗依托搜狗输入法等产品,在数据上同样具有优势。

  科大讯飞的会议同传产品讯飞听见最近闹出一场风波,它主要采用语音识别将语音转换成中文文本,然后由人工结合文本翻译成英文。针对这一“人机耦合”概念,陈伟称这是一种AI应用的方式,但一个成熟的人工同传是不需要看屏幕(看文字)的,人机结合应该以提升效率、降低成本为前提。此外,他还认为到2020年,机器同传就能够达到人类一般同传水平。

  同时,他也谈道,目前同声传译领域还存在很多问题有待解决:其一是机器同传具有很强的领域属性,而在领域之外或者大量专业领域则效果一般;其二口音问题、重复词等也是翻译中的一个难点,其三算法中还存在一些亟待解决的问题,比如中译英中很大的问题是中英混杂,这都值得长期投入和推敲。

13524859176、13296017858