当前位置:主页 > 关于华镇 > 最新动态 >

语音识别技术未来会成为你的“数字版双胞胎”

发布日期: 2019-01-02 15:12

而现在一家名叫XMOS公司的努力使这种技术的进一步增长成为可能。也许你这个名字可能不太熟悉,但如果你曾经使用过亚马逊Echo智能音箱,那么就从这种技术中受益过。

XMOS是一家专注于语音处理的无晶圆片半导体公司,它的算法能够检测整个房间的轻声语音指令,即使是在非常有挑战性的条件下(比如有很多杂物或墙壁的房间里)。那么,为什么语音技术进步得如此之快呢?

XMOS算法工程师亚历克斯?克拉辛(Alex Craciun)表示:“我认为是语音技术让生活变得更容易。你不必处理那么多消息和复杂的指令。我们要做的只需要给出命令,设备就可以自己进行优化,或者告诉你想要的东西,这就简单多了。”

该公司营销总监Esther Connock补充说:“语音技术可以帮助我的服务,我们认为语音命令会让一切变得简单,因为这种技术会告诉你它是如何工作的。它不需要遥控器、也不需要带说明书,我们只需要用一种非常自然的方式进行对话和与它交谈,这对我们来说是技术的民主化,因为你不需要花费太多的时间成本去学习如何使用它,同时你也不需要带着一定的知识储备去做。”

“所以,如果想想那些文化水平或受教育程度比较低的用户,突然之间就会意识到这是一个更加开放的竞争环境。社会的弱势群体可以利用这种技术减少孤立感。所以对我们来说,声音是世界上最自然的东西。”

有助于聊天

XMOS是来自英国布里斯托尔蓬勃市发展的科技产业的一部分,由该市的两所大学联合发展而来,这两所大学还包括Ultrahaptics(利用超声波在空中制造触觉反馈)、Reach Robotics (Mekamon增强现实机器人的创造者)和Graphcore (XMOS的子公司)。

其语音检测和隔离技术包括波束形成(跟踪一个人的声音、他们所处的空间以及自动跟着他们的麦克风移动)、声学回声取消(分离用户的声音从声音播放的设备本身)和补偿回波、噪声抑制、停止音频播放设备的检测到唤醒语以及固定或自动增益控制(确保电话会议中的所有声音都能以相同的音量听到,不管对方说话的声音有多大)。

该公司成立于2005年,以布里斯托尔大学的研究为基础。“他们开发了一种微控制器,可以做很多处理,并且有很多功率和能力可选,可以同时执行很多任务,”康诺克解释说,“这非常令人兴奋。”

2008年,苹果决定关闭FireWire接口,这一决定彻底打开了USB音频市场,XMOS开始在这个市场找到了自己的定位。该公司进行了多元化经营,为哈曼?卡顿(Harmon Kardon)和雅马哈(Yamaha)等大公司工作,也为拥有混音平台的DJ等小客户服务,然后转向多通道音频平台。

康诺克解释说:“有了一块处理能力很强的电路板,我们可以产生多达32通道的输出能力,这样我们就可以得到非常棒的多通道音频效果。这种声音和音频的专长在声音开始出现时就把我们引入了这项技术。我们的一位客户表示,凭借你所有的专业知识,就应该考虑使用麦克风和捕捉声音技术,而这正是我们所做的事情。”

2017年,XMOS凭借其远场语音接口技术获得亚马逊的青睐。康诺克说:“我们仍然是亚马逊唯一有资格的立体声解决方案合作伙伴,所以对于任何开发电视、音条和机顶盒类产品,并在真正的立体声系统中工作的客户来说,我们是唯一能够在立体声系统中消除杂音的技术供应商。这对我们来说真的很重要,也是我们今年在CES上重点关注的事情。同时我们也刚刚通过了百度的测试,这非常令人兴奋,我们另外也在与NTT Docomo合作,总体来说,我们正在全球各个地区扩张。”

户外音频技术

XMOS目前专注于房间边缘语音应用,但该公司也在研究其他领域,包括车内语音接口。

“我们在波士顿开发了一种新技术:声源分离,可以在对话中提取多种声音,这非常适合汽车环境,”康诺克说。“所以,如果你能想象我可以给你打电话时,即使我在开车,系统会把你能听到的一切杂音都去掉,只保留我的声音。孩子们可以在后面大喊大叫,他们也可以正在看一部在线流媒体电影,但对方能听到的只有我的声音。”

该公司还对语音技术的未来做出了一个有趣的预测:作为一名个人语音助理(内置到灵活的、可穿戴的智能手机中),它将介于我们现有和目前的大公司提供的语音识别服务之间。

“如果我看看亚马逊和谷歌(从某种程度上说,还有苹果和Apple Music),他们都有一种目的,就是他们想卖给我们东西。我更喜欢亚马逊卖给我的东西,但我不想要的是语音垃圾邮件,一旦这种东西开始出现,会导致用户远离语音技术。”

这种解决方案是一种中间地带,可以过滤掉任何垃圾邮件,并指向具有最相关内容的服务(它将根据用户的喜好通过人工智能技术学习这些内容)。

数字版的双胞胎

这不仅仅是一种理论,XMOS已经在实际中通过对话来来实现它。“这将很快发生,”康诺克说,“所以我们正在考虑合作、完善、购买,以创建那种生态系统。”所以这里面有很多我们认识的很多人在这个领域工作。它是开放的,已经准备好了,我们想要利用它。”

据康诺克介绍,这将导致公司创造出一位“数字双胞胎”,她承认这个词听起来有点矫情,但很贴切。它会学习并适应用户使用它的方式。例如,它会知道你不想让它跟你说话,除非你先开口。

“它不仅能了解我对音乐的喜好,还能了解我对所有事物的喜好。当我想要沟通的时候,我会优先和我的朋友们交谈,包括一切在内。”

13524859176、13296017858