当前位置:主页 > 关于华镇 > 最新动态 >

手机交互的“畅想曲” 语音识别会这样干掉触摸

发布日期: 2019-01-14 09:48

前些日子有一则视屏为大家带来了很多欢笑,一个山东的朋友为自己的爱车装上了语音助手,结果最后却被这个语音助手搞得火冒三丈。大家可以百度《山东大汉手机没电了,和车载智能语音搞笑对话》,没看过的朋友可以拿来测试一下自己的笑点。

娱乐归娱乐,看完视频我们不禁陷入了深深地思考中,曾今被热炒的语音识别怎么就变得这么鸡肋了呢?难道这又是一个“伪命题”么,现在的语音助手最大的缺陷在哪些方面,未来他们要做出哪些改进才能承担我们“私人管家”的重任,声称要取代触摸屏和大多数App的语音助手能够成功么?以上这些问题都深深困扰着笔者。

但是“拨开阴云见明日”的时候到了!昨天某公司公布了全新语音助手Bixby的部分特性,主要有三:

① 一个应用支持Bixby后,用户可以通过语音操控执行之前需要触摸进行的任何操作,也就是说通过Bixby我们可以用语音指令完成复杂的操作;

② Bixby拥有理解语境的能力,可以识别用户是在和别人说话还是和“自己”发送命令

③ Siri等语音助手需要用户输入固定模式的精确语音信息才能执行相应操作,但Bixby足够聪明,Ta可以理解不完整、模糊不清的语音,甚至是“言外之意”

从以上三点我们基本可以确定,未来的语音助手是可以避免之前那个搞笑视频中的种种缺陷的,例如把用户和他人的对话识别为指令、不理解用户的情绪等问题,并且更加重要的是,“一问一答”机械式的尴尬对话再也不会出现,语音助手就是一个能和我们正常交流的“人”。

一问一答式的语音助手太愚蠢

这些让我们想起了微软、谷歌等公司以前对语音助手的观点:语音指令将完全取代在屏幕上点划的操作、语音虚拟助手将取代绝大多数功能类App。

以前各大公司在语音助手上的功夫主要下在②、③两个领域,也就是第一阶段,因为不管是方言、嘈杂的环境、复杂的交流过程都使得语音助手很难从一大堆声音信息中识别到真正有用的。

这些技术的难点主要集中在语料库的建设,还有对于语音识别系统大规模、长时间的训练上(这是一种人工智能学习能力的训练,就像AlphaGo需要不断练习才能提升围棋水平一样),对于语音助手来说几万小时的训练时间都是九牛一毛,所以这么大的计算、数据吞吐量,基本没有几个公司承担的起,要做到最好更是难上加难。

第二个阶段,而即使攻破了“听到”这个难点,“听懂”则又上了一层楼,以前的语音助手都是“一问一答”式,问什么Ta就回答什么,一旦对话中断、旁边有人插嘴,或者突然换了一个问题,那么语音助手的识别就可能出错。但是如果Ta能够“听懂”,就意味着Ta能明白哪些话是需要记录的,哪些问题是需要回应的,当达到这种程度的时候,我们的语音助手其实就很像一个真正的人了。

最后一个阶段,就是语音助手完全进化为我们的超级私人助理的过程,也就是①的过程,Ta将能够获取我们计算终端中的所有信息,然后对这些数据、图片、文件做出各种分析,随时随地提供给我们,在这个阶段语音助手就像一个什么都不会忘记、什么都会、计算能力超强的个人管家。

所以想象一下未来语音助手的使用场景:

场景一记账软件可以下岗了,买东西后只需要平平常常地说一声“哎,又花了100元钱”,Ta听得懂并且会替你记住,不用像现在这样说“Siri,我刚刚花了100元钱,帮我记到XX软件中”,减少了不少尴尬,你也可以直接问Ta我这个月花了多少钱,Ta会直接告诉你的,所以很多App都会因此消失

13524859176、13296017858