语音交互是未来智能生活的核心

爱相随 · 发表于 2016-8-28 01:30:28

　　图1：直播实况

　　人工智能并不是一个很新的概念，从刚开始有这个概念到今年刚好是60年。他的发展过程坎坷，有多次的起伏。研究人工智能的时候分为三个学派，逻辑学，仿生学和行为学。逻辑学研究人的思维，仿生学研究人脑的运行机理，而行为学不研究思维只考虑观察行为。

　　人工智能的发展大概能分为三个阶段：感知智能，认知智能到通用智能。像传感器，图象，语音识别，大数据的自动驾驶汽车都属于感知智能，在这个方面计算机进步是非常快的，与人类的进展是非常接近的。目前的感知阶段已经比较成熟，在慢慢向认知智能方向发展，认知就是具备学习能力，能像人有记忆能力，具备决策能力，像医生看病，这是典型的决策问题，我们可以去做规划。但通用智能是指真的到达了人的水平，具备自我意识，但目前还离我们非常遥远。

　　云知声在人工智能方面目前的业务主要是处于感知智能的阶段。最早是提供学习技术的云平台，再到现在语音识别。我们又结合硬件将语音识别运用到车载，家居，医疗，教育等应用邻域。语音交互将会是未来智能时代的核心，云之声的愿景是可以在家里有一个智能中心，让人和机器去进行交流，为生活带来智能化的变革。

　　硅谷里耳熟能详的几家大公司，谷歌，FaceBook，微软，IBM等等都对人工智能趋之若鹜。谷歌发声最早，从一家搜索的公司很成功地转型到现在的人工智能公司，它目前以及未来的中心都会放在搜索，家居和无人驾驶上。Facebook也请到了三驾马车之一Yann Lecun，建立了自己的研究实验室。IBM有着深厚的人工智能基础，从1997年IBM 的深蓝战胜国际象棋世界冠军卡斯帕罗夫之后，紧接着2005年，IBM 蓝脑计划，首个有自我意识的机器人，2014年，开放了Watson平台和发布了模拟人脑芯片的SYNAPSE。目前IBM在人工智能邻域的布局还是围绕着Watson和Synapse 做文章。苹果公司一向对外消息甚严，传闻他们要做无人驾驶车，并且在各大公司相继挖人，未来的方向应该是围绕着设备智能。

　　除了硅谷的公司，国内的大公司也在人工智能方向有很大的进展。以互联网巨头BAT为例：百度发声最广，引进了吴恩达博士建立了北美研究院，与Google的性质类似，百度注重搜索，语音和图像的识别。阿里巴巴可能更多的是注重物联网的布局，对消费趋势，数据和场景规模化将投入更多的资源。腾讯专注于搜索技术、自然语言处理，数据挖掘邻域。

　　未来我们的生活将更多的围绕生活智能，从工业时代完全过渡到一个全新的智能时代，人工智能会受人类的控制而更好地服务于人类，拥有更多的功能，应用到更广泛的邻域。语音交互技术将会是开始智能时代的核心，让机器真正能与我们对话。

　　【以下是由无穷整理的演讲实录】

　　大家好我是刘升平，我是来自云知声的研究员，我是在2005年毕业以后在IBM研究院做了6年多，也是偏语音研究工作，之后又来到了云知声，公司刚成立的时候到现在一直从事理解和认知智能方面的工作。语音是最智能的，跟人交互的方式，的确给我们的生活带来很大的便利。

　　在家居这块，我们马上会有格力、海信，国内几家家电，我们都会有合作，大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互，还有像音箱这一块，因为音箱本身就是一个播放的设备，所以你加语音很自然。我们跟音箱，还有像机器人，因为机器人也是，它本来就是人的形状，你用语音交互是最自然的方式，这块我们也都有很大的进展。

　　人工智能近60年的发展

　　接着之前的话题讲人工智能，今天我给大家讲一下人工智能能过去的历史，目前的发展状态，以及未来的一些展望。今年的人机大战使人工智能走进了人们的视野，但其实这并不是一个新的概念，直到今年刚好是60年。它的发展过程其实也是非常坎坷的，有多次的起起伏伏。在刚开始的时候马上得到大家的认可，百花齐放的感觉，从不同角度研究人工智能，我们当时分成了三大学派。一个是逻辑学派，更多是考虑人的思维、认知方面的东西，特别是知识的表现。另外一个派就是仿生学，它是去研究人脑的一种运行机理。最后一派就是不去研究大脑，也不去研究人的行思维它是去看行为，称为行为学派。三大块都是百异彩纷呈、花齐放的感觉。但是它们马上，可能大概十以后，人工智能陷入一个低潮，这大家说个概念很好，我们现在做的东西在60年前左右就开始做了，像现在我们做的翻译，我们说的天系统，实际上在60年前左右就开始研究了，机器人也是这样的。

　　当时你想计算机刚发明不久，计算功能很弱，所计算机还是像玩具一样的东西，以就陷入了低潮。陷入低潮以后，过了几年，因为我想大家对人工智能的追求还是有的，所以他们慢慢取在专家系统方面得了很大的成功，特别在医疗的诊断，辅助诊断这块，实际上在70年代我们就做了抗生素这分方面的东西用什么样的抗生素，有专门这样的系统，慢慢又开始火起来。但是这时候，大家同时对人工智能期望很高，但是又没火多久，又陷入低潮。它不是玩具，能解决一定的问题，但是只能解决小方面的问题，像不能解决像现在智能驾驶、机器人，很高端的这些。陷入这个低潮以后家都开始反思，之前我们谈的很高，用思维、逻辑，现在很多人开始从简单的方面做起，从感知方面做起，像人一样能看听众人说话，或者懂一个东西，就从这种很基础的感知智能开始做起，慢慢地往更高级的认知去智能这块。

　　人工智能发展的三个阶段：感知、认知和通用智能

　　人工智能的发展大概能分为三个阶段：感知智能，认知智能到通用智能。如果从感知的角度讲，举个例子，一个动物，一个猫，一个狗，看到周围会避让，随着传感器，图象，语音识别，大数据的自动驾驶汽车出来了以后，这个问题计算机进步是非常快的，与人类的进展是非常接近的。现在语音跟图像识别这块，国内现在很多公司在做这一块，识别这块也有很多创业公司，前段时间一个创业公司引进一个科学家，所以感知这块现在做得是比较纯属的一块，甚至在某些分析已经接近人的感知能力，像语音已经很接近人了。

　　目前的初级阶段已经比较成熟，在慢慢向认知智能方向发展，认知有很多方面，就像人有记忆能力，我们可以做联想，最重要是要有思维，我们还要有创造力，我们可以去画画、写诗，另外一点就是我们有决策能力，像医生看病，这是典型的决策问题，我们可以去做规划。这个我们不是一层不变的，是可以去学习的，这是认知的重要几个方面。这块也是最早人工智能的梦想，希望在认知这块能够达到接近人的水平。

　　用智能更高级，真的是达到了人的水平，可能在意识这块，我们之前说的还没有到意识这个层次，如果让机器有了自己的意识，就是机器会控制人这种事情。但这个我感觉大家不用担心，通用智能还非常遥远，在估计在我有生之年看不到这个场景。

　　云知声在人工智能上的发展和布局

　　云知声从2012年到现在也四年多了，我们一直从事这方面的工作。这几年的发展也可以干出整个行业的发展，我们最开始做云识别，在2012年6月份成立，我们9月份就把云识别的云平台弄出来了，是业内第一个免费的云识别云平台。我们在2013年1月份的时候，就把深入学习的功能弄上去了，提供学习技术的云平台，之后我们又做了语音识别，而且做了对话的语音识别出来。所以我们一直在做这块的东西，我们技术也是不断演变，从最早的统计学习这块，不久我们又做深度学习这块。在今年7月份的时候，我们又发布了引擎的升级，这个升级里面有两个大的升级，一个是在云识别这方面，我们运用了一个新的模型，提升了语音识别的准确率，错误率降低了20%。而且我们把这个应用到医疗方面，在医疗领域我们把医疗专门的云识别准确率提高到95%左右，使得医疗这个行业云识别真正变得实用。

　　医疗的语音识别是给医生用的，医生下班要有很多时间花在写东西上面，病例我们希望是通过口述就把它转成文字，但是这个医疗比较复杂，会涉及到很多专业的术语，很多疾病名称、药品名称，或者一些基因名称。这块对语音识别是一个很大挑战，我们也做了很多优化以后，真正地把语音识别在医疗行业这块做到可以供应用的水平，我们最近在协和医院，在国内第一家三甲医院上线。

　　云知声我们刚才说技术这块，从感知方面我们做了很多认知方面的工作，语音、问答、推理这方面的，我们现在应用的场景除了医疗之外，实际上我们用的最多的是另外两个分析，一个是车上，因为在车上手和眼都被占用了，你不能触摸屏幕，也不能看屏幕，这时候你想打电话，或者你想导航到某个地方，或者找一家餐厅，通过语音是最方便的方式。所以我们在车上通过语音来做，因为在手机上的话是一个很标准的录音环境，没什么噪音。但是车里面有噪音，如果开着窗的话噪音非常大，所以对云识别是一个很大的挑战，所以我们有专门的硬件做降噪，可以让识别效果很好。

　　那在家居上更明显，我们更多讨论是远一点的环境，你隔3米、5米怎么控制，你跟空调说调到25度，你跟电视说跳到哪个台。所以降噪方面还是有比较大的挑战，因为有噪音。另外我们在远一点的环境之后，信号会衰减，到真正识音的时候，声音很多地方汇集到一块，所以这个时候对语音识别是很大的挑战。这个我们也是做了硬件的升级，做混响，做降噪，达到非常好的效果。家居这块其实应用很广，就像今年跟美的空调，它现在空调这块，因为它是比较远吗。我们现在可以看到一个很明显的趋势是，用语音代替传统的摇控器，躺在床上就可以把空调温度调低一点，高一点，你不用找遥控。现在有很多用APP控制，但是用APP也很麻烦，你晚上还要找手机，然后找到APP，再去调。所以语音是最智能的，跟人交互的方式，的确给我们的生活带来很大的便利。

　　在家居这块，我们马上会有格力、海信，国内几家家电，我们都会有合作，大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互，还有像音箱这一块，因为音箱本身就是一个播放的设备，所以你加语音很自然。我们跟音箱，还有像机器人，因为机器人也是，它本来就是人的形状，你用语音交互是最自然的方式，这块我们也都有很大的进展。

　　硅谷人工智能的发展

　　

　　谈到硅谷公司，我们耳熟能详的几家大公司，谷歌，FaceBook，微软，IBM等等都对人工智能趋之若鹜。Google做了很华丽的转型，从一家搜索公司到现在的人工智能公司，它是很早就意识到人工智能的技术对人们生活影响的趋势，他们很早就做DeepM （ind所以它的智能化的布局是最全面也是最领先的。像它的智能驾驶团队也是最领先的，把最早深度学习做到了，买了一个三个人的小公司。他们在这方面下了血本，这也跟Google很长期的技术积累，包括计算这方面，他们很早就提出来的，分布式计算框架，他们都做得很好。所以他们在这方面的技术积累，我觉得他们走到这一步也是顺其自然的一个趋势。Google在软件就是Google Mind是云助手，另外他们也提出了Google Home，要去控制这个东西。另外Google自动驾驶汽车我估计很快也会推出。有传言说Google将会在5年内推出无人驾驶汽车，那我觉得是可能的。因为智能驾驶这个包括了感知、认知，最后反馈到行动，包括对道路的感知情况，到底采用什么驾驶模式，怎么开这个车，它会需要至少5年的时间。自动驾驶确实是一个比较有意思的课题，所以目前这块也有很多工作在做，所以离全自动驾驶还有一段距离。更切实可行的是说，辅助驾驶这块，这块也是你可以看到汽车技术演进也是在不断地演变，不断地在变自动，最后让人越来越懒，这可能是做技术最大的追求。我们也都是这样的，让大家懒一点，舒服一点。

　　FaceBook也请了三驾马车，他们最近也有一些成果，他们也下围棋，也下得不错，他们也做得不错，只是被Google抢了风头。但是总体来讲，投入也不是很大。微软投入也很大，从我当时读博士的时候，大概2000年左右，我在微软实习的时候，当时做的东西就跟现在的人工智能差不多，当时就提出来做那种智能交互这块，主要是做语音识别这些领域。

　　苹果公司也很伟大，他也默默在发展人工智能，只不过他们会相对比较低调。最早大众接受的语音产品就是苹果公司做的，他们也收购了情绪识别这样的公司。

　　亚马逊推出的Echo是一个跨时代的设备，全语音识别的，从体验度讲的话，是目前语音交互做得很好的。你跟它说话的时候，它播音的声音会自动降低，很人性的一个做法，这样的话它可以更好地听清楚你的声音，更好地和你交互。然后在对话这方面做得比较好，另外它也推出一个平台，就是开发者可以把一些功能加上面去，你可以用音箱叫车，甚至订外卖都有可能。

　　从互联网到移动互联网，后面到物联网，那物联网除了万物互联之外，其实更重要的是万物智能，我们以后每个设备虽然样子可能不像机器人，但其实也是个机器人，同样都会有感知的功能，有认知，就像我们说一个空调，其实某种意义上有感知功能，如果它看到你看电视睡觉了，它可能自动关了，可能会帮你关掉电视，可能把风力调低一点，温度调高一点，很人性化的，会根据你的情况做一些决策，这也是一种智能的体现，我相信以后除了我们用的设备。它相当于成为了家里的一个控制中心。它会有记忆，但这个不是很神奇，我们每次跟它交互它都会记下来，不断根据你的交互行为越来越了解你，给人打上各种各样的标签，会给你做一些个性化的推荐，还有一些个性化的服务，这个现在很多产品都会有。

　　亚马逊是卖东西起家的公司，但是它在Echo投入很大，但是在其他分析也在做无人机，用无人机送货，这是很超前的理念。我觉得它还是比较踏实做产品的公司，不像Google宣传很多。

		自动登录	找回密码
密码			立即注册