原标题:考场上来了一群AI“学霸”
AI的“智商”到底有多高?来一场考试测验一下就知道了。
3月8日,人工智能企业云从科技和上海交通大学联合宣布,在自然语言处理(NLP)上取得重大突破,在大型深层阅读理解任务数据集RACE数据集登顶第一,在高中测试题部分首次超越人类。但紧随其后,微信AI又刷新了这一记录。
为了展示自身的AI实力,包括科大讯飞、阿里等多家科技或互联网公司都纷纷加入“考试大军”。
阅读理解竞赛AI公司一展身手
由卡耐基梅隆大学语言技术研究所发起的RACE数据集上,各大AI公司纷纷一展身手。
RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约2.8万篇文章以及近10万个问题。它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章,针对提出的问题从四个选项中选择正确的答案。
由于该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理。这意味着,AI不只是要运算和记录,而是要主动去分析和理解,包括篇章结构、思维逻辑、辅助语句和关键句等元素构成的复杂组织网络。
云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4.2个百分点,并在高中测试题部分首次超越人类(机器正确率69.8%、普通人类69.4%)。
紧随其后,微信AI也宣布,最新成绩全面赶超人类,微信AI模型整体正确率达73.5%。
微信AI亮相较晚,但实力一点不差。截至目前,微信先后推出微信智聆、微信智言两大AI技术品牌,后者更专注于智能对话和自然语言处理等技术的研究与应用,在2017年12月开始筹备,2019年1月份微信公开课正式亮相。此外,腾讯专门成立了灵格实验室,聚焦于NLP领域技术研究与应用探索。
AI系统与高考状元同场竞技
为更好地给AI能力“打分”,越来越多的AI公司直接上了考场。
去年12月,一场特殊的六级考试在合肥举行。这场考试是一场针对“机器人”的六级考试,考生是科大讯飞的一套智能翻译系统,而考卷则是今年六级试卷中的三道翻译题,每道题满分15分。
智能翻译系统答题如行云流水,每道题只花了5秒钟就完成了试卷,经专家老师批改后,翻译系统三道题得分分别为14、14、12分,比大学生的平均分还高。
来一场高考题比拼如何?2017年全国高考数学考试结束之后,一场人机高考大战的对决上演了:在线教育公司“学霸君”自主研发的智能教育机器人“Aidam”首次公开亮相,通过现场直播的方式,与六名高考状元同台竞技全国卷文科数学试题,完成包括客观题和主观题在内的整张试卷,并按照评分标准得出最终成绩。
不过,出人意料的是,这一次AI并没有全面“碾压”人类。阅卷结果显示,三组高考状元分别得分为146分、140分、119分,而Aidam为134分。
类似的情况并不鲜见。今年2月,上海脑中心/张江实验室认知智能组与科大讯飞及复旦大学的合作团队,刚刚夺得SAT(学术能力评估测验,俗称“美国高考”)数学问题自动答题竞赛世界冠军,成绩约合360分。即满分800分的考题,综合准确率为45%。
相较于申请美国名校的中国考生700分以上的高分,AI的表现似乎有些“孱弱”。对此,上海参赛团队负责人之一、上海脑中心研究员周熠表示,解答SAT试题、尤其是综合题,需要突破人工智能中自然语言和图像理解、知识表示和深度推理等多重难关,这对于目前的弱人工智能而言,仍是难以完成的挑战,“如果能让AI取得SAT高分,将对这项技术的发展产生重要影响”。
人机交互AI尚难以理解人的意图
“阅读理解为后续的人机交互、人机对话在算法方面进行了一次阶段性验证。一直以来,自然语言理解远比语音、图像识别难度要高得多。”云从科技人工智能研究院副院长周翔表示,目前计算机在测试题库上,深度学习掌握比较好,并不意味着计算机语言理解的能力就要全面超越人类。
“比如我与你面对面交流时,中途接听了一个电话,和你继续交流是没有什么问题的,但计算机的理解还非常有限。此外,计算机在语言描述方面也存在一定的理解难度,比如你问我今天下午有没有时间做一次沟通,我没有直接回复‘可以’或者‘不可以’,而是说下午有两个会议,时间比较紧,人是很好理解这背后的意图,但机器就很难分析出来。”周翔说。
周翔还解释,此次试题是英文,一般情况下中文比英文要复杂得多,例如英文一个单词就是一个意思,而中文字与字之间没有空格,机器还要对名词、副词、形容词等进行分解,而且中文还存在一词多解、多歧义等情况。
“自然语言理解的突破也是挺有意义的,一方面展示了各家企业的技术实力,另一方面也意味着自然语言还要更多突破。”周翔说,随着自然语言理解的深入,人机交互将更加顺畅,尤其是机器可以更加理解人的意图,比如未来出行,对着手机说“我要出差”,机器就可以理解主人什么时候出发、机票是否有预订,遇到不明白的可以向主人提问,从而有更多的沟通。