eNewsTree.com

 找回密码
 立即注册
查看: 796|回复: 0
打印 上一主题 下一主题

语音交互是未来智能生活的核心

[复制链接]
跳转到指定楼层
楼主
发表于 2016-8-28 01:30:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

  

  图1:直播实况

  人工智能并不是一个很新的概念,从刚开始有这个概念到今年刚好是60年。他的发展过程坎坷,有多次的起伏。研究人工智能的时候分为三个学派,逻辑学,仿生学和行为学。逻辑学研究人的思维,仿生学研究人脑的运行机理,而行为学不研究思维只考虑观察行为。

  人工智能的发展大概能分为三个阶段:感知智能,认知智能到通用智能。像传感器,图象,语音识别,大数据的自动驾驶汽车都属于感知智能,在这个方面计算机进步是非常快的,与人类的进展是非常接近的。目前的感知阶段已经比较成熟,在慢慢向认知智能方向发展,认知就是具备学习能力,能像人有记忆能力,具备决策能力,像医生看病,这是典型的决策问题,我们可以去做规划。但通用智能是指真的到达了人的水平,具备自我意识,但目前还离我们非常遥远。

  云知声在人工智能方面目前的业务主要是处于感知智能的阶段。最早是提供学习技术的云平台,再到现在语音识别。我们又结合硬件将语音识别运用到车载,家居,医疗,教育等应用邻域。语音交互将会是未来智能时代的核心,云之声的愿景是可以在家里有一个智能中心,让人和机器去进行交流,为生活带来智能化的变革。

  硅谷里耳熟能详的几家大公司,谷歌,FaceBook,微软,IBM等等都对人工智能趋之若鹜。谷歌发声最早,从一家搜索的公司很成功地转型到现在的人工智能公司,它目前以及未来的中心都会放在搜索,家居和无人驾驶上。Facebook也请到了三驾马车之一Yann Lecun,建立了自己的研究实验室。IBM有着深厚的人工智能基础,从1997年IBM 的深蓝战胜国际象棋世界冠军卡斯帕罗夫之后,紧接着2005年,IBM 蓝脑计划,首个有自我意识的机器人,2014年,开放了Watson平台和发布了模拟人脑芯片的SYNAPSE。目前IBM在人工智能邻域的布局还是围绕着Watson和Synapse 做文章。苹果公司一向对外消息甚严,传闻他们要做无人驾驶车,并且在各大公司相继挖人,未来的方向应该是围绕着设备智能。

  除了硅谷的公司,国内的大公司也在人工智能方向有很大的进展。以互联网巨头BAT为例:百度发声最广,引进了吴恩达博士建立了北美研究院,与Google的性质类似,百度注重搜索,语音和图像的识别。阿里巴巴可能更多的是注重物联网的布局,对消费趋势,数据和场景规模化将投入更多的资源。腾讯专注于搜索技术、自然语言处理,数据挖掘邻域。

  未来我们的生活将更多的围绕生活智能,从工业时代完全过渡到一个全新的智能时代,人工智能会受人类的控制而更好地服务于人类,拥有更多的功能,应用到更广泛的邻域。语音交互技术将会是开始智能时代的核心,让机器真正能与我们对话。

  【以下是由无穷整理的演讲实录】

  大家好我是刘升平,我是来自云知声的研究员,我是在2005年毕业以后在IBM研究院做了6年多,也是偏语音研究工作,之后又来到了云知声,公司刚成立的时候到现在一直从事理解和认知智能方面的工作。语音是最智能的,跟人交互的方式,的确给我们的生活带来很大的便利。

  在家居这块,我们马上会有格力、海信,国内几家家电,我们都会有合作,大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互,还有像音箱这一块,因为音箱本身就是一个播放的设备,所以你加语音很自然。我们跟音箱,还有像机器人,因为机器人也是,它本来就是人的形状,你用语音交互是最自然的方式,这块我们也都有很大的进展。

  人工智能近60年的发展

  接着之前的话题讲人工智能,今天我给大家讲一下人工智能能过去的历史,目前的发展状态,以及未来的一些展望。今年的人机大战使人工智能走进了人们的视野,但其实这并不是一个新的概念,直到今年刚好是60年。它的发展过程其实也是非常坎坷的,有多次的起起伏伏。在刚开始的时候马上得到大家的认可,百花齐放的感觉,从不同角度研究人工智能,我们当时分成了三大学派。一个是逻辑学派,更多是考虑人的思维、认知方面的东西,特别是知识的表现。另外一个派就是仿生学,它是去研究人脑的一种运行机理。最后一派就是不去研究大脑,也不去研究人的行思维它是去看行为,称为行为学派。三大块都是百异彩纷呈、花齐放的感觉。但是它们马上,可能大概十以后,人工智能陷入一个低潮,这大家说个概念很好,我们现在做的东西在60年前左右就开始做了,像现在我们做的翻译,我们说的天系统,实际上在60年前左右就开始研究了,机器人也是这样的。

  当时你想计算机刚发明不久,计算功能很弱,所计算机还是像玩具一样的东西,以就陷入了低潮。陷入低潮以后,过了几年,因为我想大家对人工智能的追求还是有的,所以他们慢慢取在专家系统方面得了很大的成功,特别在医疗的诊断,辅助诊断这块,实际上在70年代我们就做了抗生素这分方面的东西用什么样的抗生素,有专门这样的系统,慢慢又开始火起来。但是这时候,大家同时对人工智能期望很高,但是又没火多久,又陷入低潮。它不是玩具,能解决一定的问题,但是只能解决小方面的问题,像不能解决像现在智能驾驶、机器人,很高端的这些。陷入这个低潮以后家都开始反思,之前我们谈的很高,用思维、逻辑,现在很多人开始从简单的方面做起,从感知方面做起,像人一样能看听众人说话,或者懂一个东西,就从这种很基础的感知智能开始做起,慢慢地往更高级的认知去智能这块。

  人工智能发展的三个阶段:感知、认知和通用智能

  人工智能的发展大概能分为三个阶段:感知智能,认知智能到通用智能。如果从感知的角度讲,举个例子,一个动物,一个猫,一个狗,看到周围会避让,随着传感器,图象,语音识别,大数据的自动驾驶汽车出来了以后,这个问题计算机进步是非常快的,与人类的进展是非常接近的。现在语音跟图像识别这块,国内现在很多公司在做这一块,识别这块也有很多创业公司,前段时间一个创业公司引进一个科学家,所以感知这块现在做得是比较纯属的一块,甚至在某些分析已经接近人的感知能力,像语音已经很接近人了。

  目前的初级阶段已经比较成熟,在慢慢向认知智能方向发展,认知有很多方面,就像人有记忆能力,我们可以做联想,最重要是要有思维,我们还要有创造力,我们可以去画画、写诗,另外一点就是我们有决策能力,像医生看病,这是典型的决策问题,我们可以去做规划。这个我们不是一层不变的,是可以去学习的,这是认知的重要几个方面。这块也是最早人工智能的梦想,希望在认知这块能够达到接近人的水平。

  用智能更高级,真的是达到了人的水平,可能在意识这块,我们之前说的还没有到意识这个层次,如果让机器有了自己的意识,就是机器会控制人这种事情。但这个我感觉大家不用担心,通用智能还非常遥远,在估计在我有生之年看不到这个场景。

  云知声在人工智能上的发展和布局

  云知声从2012年到现在也四年多了,我们一直从事这方面的工作。这几年的发展也可以干出整个行业的发展,我们最开始做云识别,在2012年6月份成立,我们9月份就把云识别的云平台弄出来了,是业内第一个免费的云识别云平台。我们在2013年1月份的时候,就把深入学习的功能弄上去了,提供学习技术的云平台,之后我们又做了语音识别,而且做了对话的语音识别出来。所以我们一直在做这块的东西,我们技术也是不断演变,从最早的统计学习这块,不久我们又做深度学习这块。在今年7月份的时候,我们又发布了引擎的升级,这个升级里面有两个大的升级,一个是在云识别这方面,我们运用了一个新的模型,提升了语音识别的准确率,错误率降低了20%。而且我们把这个应用到医疗方面,在医疗领域我们把医疗专门的云识别准确率提高到95%左右,使得医疗这个行业云识别真正变得实用。

  医疗的语音识别是给医生用的,医生下班要有很多时间花在写东西上面,病例我们希望是通过口述就把它转成文字,但是这个医疗比较复杂,会涉及到很多专业的术语,很多疾病名称、药品名称,或者一些基因名称。这块对语音识别是一个很大挑战,我们也做了很多优化以后,真正地把语音识别在医疗行业这块做到可以供应用的水平,我们最近在协和医院,在国内第一家三甲医院上线。

  云知声我们刚才说技术这块,从感知方面我们做了很多认知方面的工作,语音、问答、推理这方面的,我们现在应用的场景除了医疗之外,实际上我们用的最多的是另外两个分析,一个是车上,因为在车上手和眼都被占用了,你不能触摸屏幕,也不能看屏幕,这时候你想打电话,或者你想导航到某个地方,或者找一家餐厅,通过语音是最方便的方式。所以我们在车上通过语音来做,因为在手机上的话是一个很标准的录音环境,没什么噪音。但是车里面有噪音,如果开着窗的话噪音非常大,所以对云识别是一个很大的挑战,所以我们有专门的硬件做降噪,可以让识别效果很好。

  那在家居上更明显,我们更多讨论是远一点的环境,你隔3米、5米怎么控制,你跟空调说调到25度,你跟电视说跳到哪个台。所以降噪方面还是有比较大的挑战,因为有噪音。另外我们在远一点的环境之后,信号会衰减,到真正识音的时候,声音很多地方汇集到一块,所以这个时候对语音识别是很大的挑战。这个我们也是做了硬件的升级,做混响,做降噪,达到非常好的效果。家居这块其实应用很广,就像今年跟美的空调,它现在空调这块,因为它是比较远吗。我们现在可以看到一个很明显的趋势是,用语音代替传统的摇控器,躺在床上就可以把空调温度调低一点,高一点,你不用找遥控。现在有很多用APP控制,但是用APP也很麻烦,你晚上还要找手机,然后找到APP,再去调。所以语音是最智能的,跟人交互的方式,的确给我们的生活带来很大的便利。

  在家居这块,我们马上会有格力、海信,国内几家家电,我们都会有合作,大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互,还有像音箱这一块,因为音箱本身就是一个播放的设备,所以你加语音很自然。我们跟音箱,还有像机器人,因为机器人也是,它本来就是人的形状,你用语音交互是最自然的方式,这块我们也都有很大的进展。

  硅谷人工智能的发展

  

  谈到硅谷公司,我们耳熟能详的几家大公司,谷歌,FaceBook,微软,IBM等等都对人工智能趋之若鹜。Google做了很华丽的转型,从一家搜索公司到现在的人工智能公司,它是很早就意识到人工智能的技术对人们生活影响的趋势,他们很早就做DeepM (ind所以它的智能化的布局是最全面也是最领先的。像它的智能驾驶团队也是最领先的,把最早深度学习做到了,买了一个三个人的小公司。他们在这方面下了血本,这也跟Google很长期的技术积累,包括计算这方面,他们很早就提出来的,分布式计算框架,他们都做得很好。所以他们在这方面的技术积累,我觉得他们走到这一步也是顺其自然的一个趋势。Google在软件就是Google Mind是云助手,另外他们也提出了Google Home,要去控制这个东西。另外Google自动驾驶汽车我估计很快也会推出。有传言说Google将会在5年内推出无人驾驶汽车,那我觉得是可能的。因为智能驾驶这个包括了感知、认知,最后反馈到行动,包括对道路的感知情况,到底采用什么驾驶模式,怎么开这个车,它会需要至少5年的时间。自动驾驶确实是一个比较有意思的课题,所以目前这块也有很多工作在做,所以离全自动驾驶还有一段距离。更切实可行的是说,辅助驾驶这块,这块也是你可以看到汽车技术演进也是在不断地演变,不断地在变自动,最后让人越来越懒,这可能是做技术最大的追求。我们也都是这样的,让大家懒一点,舒服一点。

  FaceBook也请了三驾马车,他们最近也有一些成果,他们也下围棋,也下得不错,他们也做得不错,只是被Google抢了风头。但是总体来讲,投入也不是很大。微软投入也很大,从我当时读博士的时候,大概2000年左右,我在微软实习的时候,当时做的东西就跟现在的人工智能差不多,当时就提出来做那种智能交互这块,主要是做语音识别这些领域。

  苹果公司也很伟大,他也默默在发展人工智能,只不过他们会相对比较低调。最早大众接受的语音产品就是苹果公司做的,他们也收购了情绪识别这样的公司。

  亚马逊推出的Echo是一个跨时代的设备,全语音识别的,从体验度讲的话,是目前语音交互做得很好的。你跟它说话的时候,它播音的声音会自动降低,很人性的一个做法,这样的话它可以更好地听清楚你的声音,更好地和你交互。然后在对话这方面做得比较好,另外它也推出一个平台,就是开发者可以把一些功能加上面去,你可以用音箱叫车,甚至订外卖都有可能。

  从互联网到移动互联网,后面到物联网,那物联网除了万物互联之外,其实更重要的是万物智能,我们以后每个设备虽然样子可能不像机器人,但其实也是个机器人,同样都会有感知的功能,有认知,就像我们说一个空调,其实某种意义上有感知功能,如果它看到你看电视睡觉了,它可能自动关了,可能会帮你关掉电视,可能把风力调低一点,温度调高一点,很人性化的,会根据你的情况做一些决策,这也是一种智能的体现,我相信以后除了我们用的设备。它相当于成为了家里的一个控制中心。它会有记忆,但这个不是很神奇,我们每次跟它交互它都会记下来,不断根据你的交互行为越来越了解你,给人打上各种各样的标签,会给你做一些个性化的推荐,还有一些个性化的服务,这个现在很多产品都会有。

  亚马逊是卖东西起家的公司,但是它在Echo投入很大,但是在其他分析也在做无人机,用无人机送货,这是很超前的理念。我觉得它还是比较踏实做产品的公司,不像Google宣传很多。


收藏收藏 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|消息树

GMT-8, 2024-4-26 21:08 , Processed in 0.041182 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表