当前位置:主页 > 关于华镇 > 最新动态 >

王小川:人工智能的未来发展方向是要走向自然

发布日期: 2020-03-10 20:25

  2019年12月9日上午,中国企业领袖年会在北京举办,今天进行的是“领袖大课”环节,搜狗创始人、CEO王小川在会上发表精彩演讲,演讲内容是:人工智能的发展方向。

  以下对演讲实录:

  主持人:尊敬的各位来宾、各位企业家朋友、女士们、先生们,大家上午好!

  欢迎大家来到2019年第十八届中国企业领袖年会,这是我们今天第二天的会议。今天上午我们将进行“领袖大课”的环节,我是本场领袖大课环节的主持人杨曦。非常荣幸为大家主持今天上午的活动,在这里我要代表活动的主办方《中国企业家》杂志社对各位的到来表示最热烈的欢迎和最诚挚的感谢!欢迎大家!

  新中国成立70年,改革开放40多年,毫无疑问企业家是推动中国经济快速发展的中国角色之一,同时企业家精神,包括他们所有的故事、遭遇、案例、体会,都非常值得我们观察研究,还有延续和传承。所以今天上午我们在这里邀请到了几位中国企业家群体当中的优秀杰出代表,在这里用课堂的方式与大家进行分享,分享他们的思考和实践。

  马上请出今天的第一位授课老师,大家一定对他再熟悉不过了,说他深耕互联网数十载。他在我的印象当中还是一个少年天才,是一个娃娃CEO,更重要的是2003年他刚刚从学校毕业,怎么就数十载呢?后来想想也对,因为他从小就天资禀赋,非常的出色和优秀,以计算机的研究和信息化的成绩获得了很多的嘉奖,也顺利了进入了最高级的高校,他的输入法也是深得人心,相信在座很多朋友的手机或者电脑上都装着他的输入法。下面有请这位经历了PC、移动互联网、到今天的人工智能时代的学而大则创的,来自搜狗的创始人CEO王小川老师登台,为我们授课。

  王小川:社长和各位朋友,大家好。刚才主持人讲年岁不大,其实也不小了,已经也是40多的人了。耕耘互联网已经有20多年了,从1999年到现在正好20年,所以有一半自己的时光是在享受着互联网的发展。

  那么昨天大家有一天的时间,今天我觉得我自己更多还是能够谈一些技术,包括在2016年的时候AlphaGo来了,大家都觉得AI时代来了,怎么样。三年过去了,仿佛又觉得这个概念变得模糊了,AI今天主要是做的To B的事情,从商业模式里面从C端并没有见到多少成功的案例。往下十年我会做一些预言,也跟大家分享一下我这边的思考和积累。

  所以今天我的题目是语言AI,今年是2020年。2020年是一个特别让人内心有冲动的日子,在这个时代来探讨未来科技,所以到明年开始会有数字的爆发。

  大家讲得东西都太软了,说能不能讲点硬货,所以开场的时候先拿一个硬货开始,我们做输入法、做搜索,也做了翻译。但是这个事情是我们的硬货,今年3月份的我们开卖了搜狗的录音笔,但是第一款完整的继承了我们AI能力的小硬件,这个硬件一卖就成为“双11”多个主流平台的单品销量的第一名,很快就成为了领域当中的从销量到收入,到利润可能都是排在第一的位置。就是用AI颠覆了一个小小的行业,颠覆这个词有点大,但是我们内心可以看到录音笔发生了变化。传统的录音笔都是讲收音,今天我们能够听得清,中间还有AI降噪的技术。同时跟录音笔比最大的区别是,你拿到录音笔之后直接就能转写成文字,能做云端的存储,能够检索,能够生成文章的摘要,帮助你做编辑,所以一切东西都发生了本质的变化,不仅是收音,而且对声音背后意义的理解和处理达到了一个新的高度,甚至还有同声传译的翻译能力。这个笔发出去之后,我挺欣慰的是不断的有复购率,本来买1支的人后来买了好多,这也代表了这个产品取得了小小的成功。

  看一个小的数据,录音笔市场本身是一个下滑的市场。左图可以看到从2013年开始到现在,其实一直在轻微的走低,从这样400多万的销量,略微在走低。但是今年发生了一个变化,今年3月份我们发布的录音笔之后,整个在主流电商平台的录音笔的搜索量是出现了下滑,大家觉得手机已经把录音笔慢慢取代了,但是从这个数据可以看到,因为AI的注入会使得这个硬件发出了新的活力,搜索量已经呈现了逐步上升的局面。我们预期明年到后年这样的产品随着AI点亮之后,又会重新成为大家新的伴侣,不仅是在工作场合用录音笔,前端时间发生一点事,我们说录音笔增加一个功能,叫做一键把声音上传区块链、防篡改、防删除。但是更多以后是可以让每一个消费者都用这样的新的模式,我们今天还不把它展开,以后大家用微信或者用其他的软件,大家用手机,我的脉络认为,手机也会逐步被新的硬件肢所解掉。这个录音笔发出之后,在行业做了一个创新联盟,这个联盟中索尼、纽曼、爱国者都加入了搜狗所倡导的联盟里,这是一个挺有意思的小现象,一个非录音笔、非硬件公司能在这里面有所创新,甚至重新重组了这个联盟的生态。

  这里有一个清晰的脉络,我们怎么来看AI和个人硬件的发展。看硬件的时候大家想到音箱比较多,我个人在这张图里没有把它放进来,我认为那不是未来的产品形态。怎么看呢?我有两个大的法则,一件事情,AI硬件是从固定的设备开始走向移动化,从携带开始变成穿戴,越来越轻便,所以移动性是硬件未来的走势。以前是PC机,平均每个人在PC机有30到40分钟的伴随时间,之后是手机、手表、耳机,所以整个智能硬件的走势是更加的便捷化和穿戴化。未来还会有眼镜,会成为现在新的智能硬件的组成部分。

  另外还有一个大的脉络,就是更加的IO导向,以前的PC机是计算力导向,内存大、速度大,后来有了声音、有了麦克风、各种传感器、GPS、移动传感器,到后面磁力计、心率监控,所以它能从环境当中捕获更多的数据,这种数据是来自身体的感官,逐步从人适应机器走向机器适应人,开始接管人的监管。这是另外一个趋势。所以基于这两个趋势我对音箱有所保留意见,它既不够移动,也不够IO,这是未来的主线。

  我们搜狗的竞争力在什么地方呢?我们走了一个技术方面很性感的词叫做语言,现在做图像很多、做语音的也很多。语言在这里面是最挑战,但也是最诱惑的事情。我们谈人工智能的时候,当你看到一个小的机器说它智不智能,我们可能第一反映就是跟它聊两句,如果它能跟你对话、能跟回答你的问题,你觉得它很智能,这是我们的一个本性的对智能的理解。在图灵测试当中也提到说,能跟你对话的机器就是具有了人工智能。

  语言有什么魅力呢?语言第一个来讲,亚里士多德说“语言是心灵印象的符号”,因为有了语言之后我们认知这个世界,不同的语言我们会建立不同的世界观。可以说没有语言,我们是没法对这个世界产生抽象的描述和表达的,所以语言是这个世界很重要的一部分,所以它也是知识的载体,是我们思维的工具,这是语言是对我们认知世界里面不可或缺的符号,语言是我们心智的一种表达方法。同时语言又是人类社会中进行沟通的基本工具,是社会组成的成分,没有语言我们形成不了社会,无法进行交流。

  所以在人工智能领域里又提到语言是人工智能皇冠上的明珠,第一是很重要,第二也很难。甚至我们可以说没有语言,我们就没有能力去做创造力和推理的能力,把它放在右面就是讲到今天人工智能大家认为它能解决重复性的事情,就是因为人工智能还没有创造力和推理能力,就是因为对语言没有充分的理解,这就是我们要理解的问题。

  搜狗之前做过输入法、做过搜索,一个是用语言帮助你去表达信息,一个是用语言帮助你去获取信息。因此在这里我们拥有很好的场景,在语言里面帮助你做输入和输出。今天在整个人工智能领域里面提到两个核心概念,一个叫做感知问题,就是模仿人的一种大脑的连接与深度学习里面获得了语音图像的能力,这里面一个基本走向的产品形态我们称之为自然交互,就是机器能够跟人产生理解你的行为的一种能力,你的声音、你的图像,它能够表达了。然后从以前你有个键盘用五笔输入,到后来的拼音输入,到今天能够用你的表情、手势来驱动,让机器以人的方式来进行沟通,这是一个非常重要的事,是以语言为核心的自然交互,是跟我们的感知系统特别的相关。另外一件事情称为知识计算,就是在语言之上提取出跟语言相关的关联关系,在里面产生后面的推理能力和知识的观念能力,这叫计算能力。前面讲的是感知,后面讲的是认知。

  因此搜狗从2012年开始提出自己的核心理念的时候,就围绕着自然交互和知识计算去发展我们自己的核心的语言AI能力。

  可以看这张图,在自然交互里面核心做的事情是跟图像、语音相关的,语音大家看的比较多,语音识别、语音合成,包括变声的技术。在一会儿我会给大家介绍一些当前最前沿的技术在商业领域做到什么程度,以此来理解互联网公司、技术公司现在把这样的研究成果转化为应用的可能性。另外在图像里面比较简单的人脸识别,做得比较多,但搜狗不是发展这个。我们更多是在做OCR、做文字的理解,或者是做唇语的识别,通过看嘴唇的运动能知道你在说什么,还是跟语言相关的。另外能更难的事情就是知识计算相关的,我们分成对话、问答、翻译,翻译这几年大家看得比较多,是知识计算里面比较简单的事情,比对话和问答对知识的理解会浅一些,我们在对话、问答、翻译做了很多,包括翻译的同传,视觉翻译,包括实时的同传翻译,以及搜索里面用中文搜索全球信息的翻译,等等,所以这可以展开一个语言为核心的AI的布局图。

  下面可以看一些有意思的前沿的成绩,今天搜狗因为有输入法,所以我们今年的语音识别请求已经超过了8亿次,在峰值的时候,也是最大的一款语音识别的单独的应用,是长在输入法上面的。

  可以看一个比较有意思的事情,这是全能力的展示,给大家感受一下。

  这个技术大家可以看到是展示了语音识别准,声音小的时候能识别,快速的能识别。但是今天更高的要求是提取出更多的人和语义来,第一是有人的分割,不同的人说话的时候它的能知道这是第一个说话的人或者第二个说话的人,是通过声纹做切割。第二,中间能把这种笑声、掌声、音乐的声音都能识别出来,因此它识别的不仅是语音的文字,而是其他的结构化的信息,甚至可能一个狗叫也可以告诉你。第三件事情中间还有一个很难的点,也是行业前沿在做的就是中英文的混合,如果对技术不了解觉得这是很简单的事情,但是中英文混合人做识别的时候,调动的不仅是语音识别感知的系统,而牵扯到我们的认知结构,听的时候突然发现好像语义不对,原来是另外一种语言嵌入进去,这个技术已经超越了今天深度学习的能力,能够把这个做到也是今天搜狗,包括其他的友商,像讯飞在努力的工作,像中英文混合对今天的语音识别引擎是非常有挑战的一件事情。

  另外,AI还带来什么东西呢?我们可以看到降噪算法,以前的降噪是靠麦克风矩阵做多点的降噪。今天在一路声音里面也可以做背景声音的剔除,我们可以看一个真实的算法的结果。

  这基本上是听不清的状态,但是如果通过算法过滤之后。这里面讲了,针对现场场景中4万余种真实的噪音进行降噪。AI的做法跟传统的不一样,传统的降噪是靠硬件去做严格的信号计算,而AI它见过的事情才能消。所以我们的工程师和技术团队对大量的降噪对收集和学习的工作。一个小小的录音笔里面,其实会藏很多的技术进去,才能够把这样一个对于声音的理解做到极致。部分这样的技术会在我们后面的新款中发布,今年3月份发的技术款里面已经有大部分的能力了。可以说这就是AI进去之后能够重塑这样的行业,整个硬件行业发现原来自己不掌握这样的核心技术能力。

  从语音识别之外还有语音合成,也是前沿的工作。今天行业最顶尖能做到什么呢?是对一个人的声音惟妙惟肖的模仿,下面给大家听的三个声音都是机器合成的。

  (音频)

  这是罗胖的声音,以及百科,下面是新华社的主播屈萌。行业前沿其实已经可以做到了,今天有技术做到了在线的、离线的,男女各种声音,甚至多种语言的合成。其实这中间还有一个难点的事情,就是如何把一种声音,把情感带进去,合成另外一个人的声音。怎么理解呢?就是一个人在表达他的情感,因为机器没有情感表达的能力,但是如果用声音皮肤贴上去,就可以合成另外一个人,可以听一下效果,这是在行业当中最核心的能力。

  (音频)

  今天机器不是在合成,但是机器可以把一个声音通过皮肤的方式变成其他的声音。这是什么技术呢?这是用了一个声音皮肤把原来带有情感的声音给它做一个改变,可以变成高晓松的声音,我在讲这些东西的时候觉得很敏感,会涉及到IP的问题,还可以把东北味给加进去。

  这是用来干什么的呢?它能够干很多讲故事的事情,这个人大家可能很熟悉,是凯叔,凯叔是现在在做儿童故事的表演,是收费的节目。我们之前说了你父母亲有时候不在家里面,这时候是否能用爸爸的声音来讲故事呢?今天我们可以做到这样的效果。

  (音频)

  先听原声,用我的声音做14分钟的训练,大家可以理解了,把这两个合成在一块,就能变成王小川讲的故事。因为今天的语音技术、人工智能技术,还没有能够承担表演的职能,它只能做一些简单的合成。因为这种表演是在语义背后要深刻地理解,现在既然做不到,我们会用其他方法,就是让人去承担这种表演,但是可以用另外一个事情把它套上来,变成一个标准品的输出,这件事情是有机会改变整个行业音频生产的模式的。因为以前是声优很关键,他声音很好听,他跟你签约之后,如果他走了,这档节目就完蛋了,现在的技术之后你可以把声优的声音采集下来,变成你的数去或产权。这时候你可以找任何一个人去生产这样的音频,然后把声优的声音贴上来。这个事情在行业中潜移默化也会带来一个新的变革方式。

  有了这个技术之后,我们做了一个里程碑的尝试。刚才在源头讲了,在语言合成里面做播报没有问题了,大家都听过高德地图里面的林志玲播报。但是在付费的节目里大家从来没有见过机器满足,这个尝试怎么做的呢?就是用一个梁宁,是一个著名的产品经理,她在得到上开了一门课,在她的第26讲的时候,这是全球首次用AI合成了她的声音,用来做她整个章节的付费节目的合成。我想提到这个声音,第一不是她本人的,是靠机器合成的。第二,这个合成如果有今天人类技术只是文字驱动合成的方式是达不到这样有情感的表达的。所以实际上这个技术的做法是首次先用一个转述师,用另外一个人读一次了这个内容,然后把梁宁的声音附上来,所以是这样的。

  这是把人的创作工作和你最后的表演,和你最后的声音合成做了分离,这个上线之后最后梁宁在节目的最后说,这个声音是机器合成的,有一半的网友表示自己没有听出差别来,但是有的人之后说声音有点沙哑,是不是感冒了。或者有说我交钱了,一定要听她讲的。所以怎么分辨他的劳动是他的知识本身,还是他的表演本身,机器在扮演什么样的角色。除了产权和法律上的问题以外,我们对行业进行改变的时候还有更多伦理和价值的梳理工作。

  再有一块工作是搜狗比较重要的工作,就是搜狗的分身技术。分身技术是从一个语音合成走向了一个真人的视觉的合成,先看一下效果。

  (音频)

  这背后不是个真人,整个视频制作是合成的。有真实的原型,这是新华社的一个主持人,然后用她的视觉和她的声音,我们经过建模之后能够完整地获得她的视觉合成的能力。所以你只要输入一段文字就能驱动她合成这样的视觉播报,这个播报真实在新华社取代了她在新华社APP里的播报,到现在已经播报了3000多条内容,也是全球首个取代人的主播,得到了国际上BBC等多家媒体的报道。有网友说能不能把娱乐记者、把网红的直播取代呢?我们说今天还做不到,今天做的是重复性、没有创造性的劳动,对于一个有创造力或者需要有表演才能的工作今天机器没法取代。所以屈萌也挺高兴的,她原来每周一三五的下午要做录制,现在新华社这个组可以不要了,她也升级成了采访记者,做更有价值的事情,这是一个很好的案例,能够看到人工智能在C端所发挥的作用。

  还有中国的工作,与我们的情怀相关。就是语言的工作,这是在搜狗的使命当中我们认为是需要不断突破的。有个数据,全球现在77亿人,其中中国人口是第一大的,中国人口占了20%,是讲中文的,大概有15亿讲中文的人。我们就说讲英文的人口是第二大的吗?但是我们知道英文不是全球第二大语言作为母语的,第二大是西班牙语,第三是印度语,第四大才是英文,只占全球4%。但是对不起,今天由于历史的原因,95%的网上信息表达是用英文写的,100%的商贸活动是用英文写的,因此对中国人而言我们每个人要学好多年的英文去跟这个世界进行交流,因此我们会觉得有一个责任是能够使得中国人,如果你不需要深入到当地生活,要去研究语言,你更多可以用机器辅助你做这样的事情。

  因此在2016年的时候,我们也是全球首个发布了中文到英文的同传系统,在世界互联网大会上展示。2017年做了跨语言的搜索引擎,你可以用中文搜索全球的信息,英文信息或者日韩信息,然后翻译成中文的信息给你阅读。10月份的发布了首个离线的基于深度学习的翻译机,到了去年三季度的时候也是全球首个英中的同传系统,在一些不严肃的场合已经进入了实用。这是每年的苹果大会,现在在一些网站上已经预约搜狗,可以看一下效果。

  这是一段真实的视频,表达了在一些细分领域里面机器在同传上能够开始接近人的效果,用了两件事,一个叫做细分领域,就是当机器今天做同传的时候,提前要把垂直领域的知识库建起来,比如说我做物理、做生物的,机器现在通用的语音翻译里面有可能会出现严重的错误,因为不具有完整的对事情认知的能力。比如在有些领域“WC”翻译成“洗手间”,但是有些领域里会翻译成网球的世界公开赛,机器还没法杜绝这件事情,所以要垂直领域的细分。另外,与专业人士比较起来还是有局限性,但是对大众而言它已经可以产生超越的作用了。

  前面是越谈越深入,谈到了翻译。更难的事情是未来走向对话,做搜索公司有一个性感的工作,明年我们会正式发布一个很有意思的事情,产品形态比这个更有创意。以前我们的输入是靠输入关键词给你十条链接,我们也习惯搜索很多年了。但是这种做法天花板是低的,因为关键词并不能够很好地表达你想提出的问题。比如说我见了社长,我说“社长”,她说“啥事”?我就说五个子“中国企业家”,社长会一脸懵的样子说想“你到底要问啥?”所以今天机器是没办法说谁出12345的答案给你。

  未来正常是的要走向自然交互,机器是要辅助人,以人的语言方式进行沟通。因此会把问答作为中间的媒介,让机器辅助人提出好多问题来,然后再给你好的答案。文化越长,对机器今天的AI要求能够越高,以前关键词是做到的,现在随着深度学习的发展,对语言的初步处理是可以产生这种简单的对话和问答的能力,这件事情有机会在搜索行业中间做一些改变。所以以后问题和答案会变成我们更常用的跟机器沟通的方式,也是自然交互的升级,是利用了知识计算的能力。

  今天有很多的公司在干类似的事,比如说国内的音箱,或者国外的Amazon的Echo,还有Google Assistant,都在尝试在对话问答中做工作。我们当仁不让,这块会有一个好的发布,先做这样的预告。

  这是我们之前就做到了一个在垂直领域当中对于事实类的问题,有答案的问题机器可以产生超越人的回答,这个问题有明确的答案,不是意见性的东西。可以看一下效果。

  这样的系统是靠机器做了声音和视觉的识别,跟人一样,主持人报幕的时候机器可以听他的声音,它反映的比人快,现场的时候已经让人三分了,还把机器的抢答能力关闭了,否则机器可以更快。在这种情况下在这种垂直领域也可以超过人,对这种非常创造性的问题。

  但是也有难度,比如说但凡这里面有一点推理机器就搞不过人了。如果在现场说“前面现场的灯泡数量说还是天上的星星多?”对于人来讲只要有常识的话都知道天上的星星多,但是这种事情对机器就会变成非常有挑战。因此这样的demo刚刚讲到它没有后面的推理工作的时候,它会做到。但是它不是在数据库检索,而是能同时对网上百亿的网页中间寻找答案,它有超越人的地方,但是也有严重跟人比不足的地方。所以未来在语言相关的地方,很多时候是靠人机耦合互动的方式才能产生对未来人的帮助。

  这是最后一张图,强调的是我们所看到的语言相关的问题如何分解,自然交互是横轴里面的产品形态,而知识计算是纵向里面的形态。纵轴和文字走向语音、走向图像。所以看今天合成主播已经走到了非常前沿了,已经在视觉层面、在声音层面里面制造了一个跟人长得一样的主持人。纵向知识计算会变得更难,这里面走到极致可能会解决医疗问题,IBM Watson在做,到现在做得还不算太成功。我们在里面有自己的努力,刚才讲辅助问答的工作,在更通用的领域里面做问答。两个极致,在知识计算里面走向极致,在自然交互走向极致之后,大家今天努力的方向在做个人助理,叫VPA,各大主流的公司都以VPA作为自己To C人工智能战略的一个最终点。为了这个路径,大家还可以衍生出其他很多的产品来,搜狗在这里面也希望给每个人提供更好的个人助理,以及每个人更好的分身。给大家汇报一下我们对于前沿科技进展的掌握和实践。

  主持人:非常感谢小川的授课。

13524859176、13296017858