原标题:科大讯飞杜兰:以语音为主的人机交互将推动人工智能圆梦
在“大众创业、万众创新”的时代背景下,“2016新华网创新创业高峰论坛暨人工智能思客会&VR创客会”11日在广州隆重举行。科大讯飞股份有限公司高级副总裁、科大讯飞华南有限公司总裁杜兰发表主题为《AI复始万象更新》的演讲。她指出,当前万物互联的浪潮下,以语音为主的人机交互时代已经到来,以语音和语言为入口的机器人认知能力,将推动人工智能梦想成真。她表示,科大讯飞以语音和语言为入口的认知革命上进行发力,目前已处于业界先行地位。未来,科大讯飞要在2020年让其产品带机器人参加高考,并考上“一本”大学。
以下为其致辞摘要:
科大讯飞股份有限公司高级副总裁、科大讯飞华南有限公司总裁杜兰
各位领导、各位嘉宾,大家上午好!刚刚大家视频里看到的人工智能,这是我们让机器具备像人一样的智能,这是我们产业界和科技界共同的伟大的梦想之一。其实今天科大讯飞这么多年来一直要坚持将这个梦想照进现实。
大家知道,科大讯飞在2010年开放了一个“语音云平台”,这个平台上已经有11万个小伙伴们一起加入,我们每天有10亿人次的交互,科大讯飞的输入法至今已经有了2.8亿用户,每天有五千万人在使用。科大讯飞创造了很多全球行业处于佼佼的技术,包括我们的语音识别云、语音合成技术、语音评测技术系统。比如,我现在演讲用的机器自动转写图文同步技术也是在行业佼佼的。
首先,我们看一下我们在人工智能上的一些发展。从1956年达特茅斯会议一开始,人工智能时间已经有60年的历史了,从第一个学者提出人工智能的概念,AI成为了人工智能行业的一个专业名词,并拥有了一套人工智能的系统语言。刚才白硕老师的介绍中,我们也听到人工智能的发展实际上经历了三四个跌荡期,这里面既有大家对人工智能的憧憬,也有关键技术失败所带来的一些冲击。从2006年深度学习概念正式提出以后,我们把人工智能的发展真正推到了一个爆发的前夜。
其实关于人工智能众说纷纭,著名的硅谷思想家凯文·凯利写了一本书,他在书中提到,“如果你问我未来20年最重要的技术是什么,我会告诉你是人工智能,它像200年前的电力一样重要”。霍金除了科学和思考,什么事情都不做,但是霍金也说人工智能可能在接下来的一百年中,取代人类。还有学者孙正义也提出“未来机器人的数量和智能化的程度将决定GDP的全球排名”的观点,这也对人工智能带来新的思考。另一方面,新的问题又来了,人工智能对人类到底是喜还是忧?会不会在未来替代我们人类,而且主宰我们人类?
最近人工智能已在全球范围内受到重视。美国奥巴马政府推出“脑计划”绘制脑活动全图,欧盟也推出了“人类大脑计划”,中国正在积极启动“中国大脑”计划,科大讯飞正在这个领域积极进行一些探索。在2014年8月20日,“讯飞超脑”首次发布的时候,就对人工智能做了一个相对清晰的分割和界定。我们把它分为三个层面,第一个层次是运算智能,表示我们有一个能存会算的能力。第二个层次是感知智能,是一个能听会说的能力,这是许多产业界做的探索。第三个是认知智能,我们希望达到更好的级别。
人工智能突破的切入点是什么呢?我们回头看一看人类自己是怎么样突破的。最近有本书非常火,扎克伯格也推介了,就是《人类简史》。该书中提到今天主宰地球的智人是在数万至十数万年前诞生的,而智人有了语言,也才有了我们人类自身的各种智能。
产生认知革命的一个起因是我们对语言的广泛使用,这使得我们人类的组织效率也越来越高,使得大量的陌生人拥有合作与社会行为的创新,这些都是语言在这个过程中广泛使用而产生的一个认知的起因。可以看到,我们应该在以语音和语言为入口的认知革命上进行发力,把认知革命做好,才是我们人工智能未来发展的必由之路。
业界很多人问科大讯飞是做什么的?其实我们是亚太地区佼佼的智能语音和人工智能的上市公司,我们推出的产品包括“讯飞输入法”,今天已经有了2.8亿的用户。最近,我们推出了“随声译”这样的一个功能,比如你在输入的过程中说中文,它可以不输出中文,而是直接输出英文。这个我相信会得到很多学生、很多老师的欢迎。
科大讯飞在以下方面做了探索:
首先语音合成的方面,科大讯飞的产品在1998年学会了合成中文语音,达到自然、可接受的水平。2005年我们中文语音合成自然库,已经超过了普通人4.0分的这样的水平。从2012年开始,我们产品的英文语音合成发音自然度超过了普通人的发音水平。从2006年到2015年,我们连续10年都是在暴风全球竞赛中获得第一名。2010年,我们面向公众开放了我们的语音云平台,像“高德导航”软件中,大家很喜欢听的林志玲姐姐的声音,这也是我们用机器合成的。
在语音评测方面,科大讯飞2003年开始启动语音评测的研究工作,到了今天实际应用中,我们的英语口语考试评测已经超过了一些专家的水平,并通过了广东考试院的认证,口语评测系统将在广东高考中全面使用。
在语音识别方面,2008年,科大讯飞的产品首次参加说话人识别评测大赛就获得第一名,之后推出各种方言识别的系统,目前我们的产品已覆盖了17种的方言。
在自然语言理解方面,我们的口语翻译系统也获得了国际评测的冠军。2012年我们发布了灵犀语音助手,灵犀目前已经有了1.2亿人次的用户,参考3千万次的月语音的交互量,还有主屏妙呼等功能。
在车载应用方面,我们与宝马厂商进行了一个全球中文语音技术评测的结果,我们拿了第一名,我们的得分交互成功率超过86%。整体上我们为超过全球知名的50款车型,都提供了一个语音助理的系统。
在智能硬件方面,我们和京东一起推出了一个DingDong音箱,在中国该音箱销量已经很大。这个DingDong音箱,在2015年12月21日北京人工智能的发布上进行了一个全新的展示。DingDong音箱现场发布会展示的时候,体现了我们的一个原厂识别、全双工以及多轮规划的功能。我们还推出了“开心熊宝云电话手表”,这款手表,也是全程语音加上益智教育的一个儿童智能手表,不仅可以打电话,还可以用它翻译,还可以听故事,还可以算算术。
科大讯飞推动人工智能的发展的一个重要应用领域就是在教育产业方面。在教育产业上,我们要将“以教师为中心、以教材为中心、以课堂为中心”的中心转变为“以学生能力培养、学习为中心、以过程评价为中心”的中心。目前新加坡94%的学生在使用科大讯飞的产品。2014年我们正式发布了“讯飞超脑计划”,将来会为机器装上更全面、更智能的核心,从“能听会说”到“能理解、会思考”。
我们如何评判其认知智能的水平呢?通用的一个做法就是考试,科大讯飞参加了一个项目,让机器人参加高考,并且考上大学。我们努力在2020年让机器人考上“一本”大学,我们对业界宣示了我们的信心,因为高考对人的综合能力要求是最强的,这也表示了我们的机器人能够理解、能够思考的这样一个能力。
我们要定义一个万物互联系统,我们推出了AIUI,这是我们代表人工智能的一个人机交互的界面。
我们现在需要解决哪些问题呢?我们需要解决远场降噪、全双工、方言识别、纠错能力多轮对话。这些听上去大家基本可以理解,我简单解释一下,“全双工”就是不需要人去唤醒,它一直在等待大家发号施令。“远场识别”就是,在三到五米内,对我们的机器以360度的角度对它进行发出指令,它也是能和我们进行人机互动的。
基于这样一个AIUI,我们通过统一的接口可以提供一体化的智能交互服务,这是我们非常重要的一个能力,我们可以把这些能力进行灵活搭配,应用到需要的场景当中去。我们提出这样一个AIUI概念,即人工智能时代的一个交互界面,未来能够深入到我们未来的方方面面。
我们还希望通过语音技术让文字工作者真正能够从最基础的文字梳理工作中解放出来,通过我们的机器自动记录下他们说话的过程,并对我们整个讲话进行一些智能的摘要摘取。应用这些技术,我们推出了讯飞听见、录音宝等产品。
最后,我以三句话总结今天的演讲:第一句是,万物互联的浪潮下,以语音为主,键盘、触摸为辅的人机交互时代已经到来;第二句是人工智能未来像水和电一样无所不在;第三句是,以语音和语言为入口的认知能力,将推动人工智能梦想成真。我的演讲主题就是“AI复始,万物更新”,让我们分享这个时代带给我们的无限精彩和无限美好,科大讯飞能够引领人工智能的共舞时代,让人工智能改变世界。谢谢大家!