机器阅读理解首次超越人类,云从科技自然语言处理创新纪录

澎湃新闻记者 王心馨
2019-03-08 15:50
来源:澎湃新闻

在围棋、国际象棋、游戏等领域,智能系统已经超越人类。但在通过阅读理解,获取知识上,智能系统此前一直在努力,却一直未完成超越。不过,这一局面现在发生了改变。

3月8日,云从科技和上海交通大学联合宣布,在自然语言处理(NLP Neuro-Linguistic Programming)上取得重大突破,在大型深层阅读理解任务数据集RACE数据集(ReAding Comprehension dataset collected from English Examinations)登顶第一,并成为世界首个超过人类排名的模型。

(本文图片均可点击查看大图)

论文中,云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4.2个百分点,并在高中测试题部分首次超越人类,其中机器正确率为69.8%,普通人类为69.4%。

这意味着,人工智能系统首次在深度阅读理解超越人类。云从科技是一家孵化于中国科学院重庆研究院的高科技企业,专注于计算机视觉与人工智能。

机器在阅读理解上首次超越人类

RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约28000个文章以及近100000个问题。它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从四个选项中选择正确的答案(Answers)。该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是“深度阅读理解”。

由于正确答案并没有直接使用文章中的话术来回答,不能直接从文中检索得到答案。因此,智能系统必须从语义层面深入理解文章,才能准确回答问题。

据澎湃新闻了解,此次云从科技与上海交通大学设计了的DCMN算法,即Dual Co-Matching Network,这是一种P、Q与A之间的匹配机制,基于这种机制探索性的研究了P、Q与A的各种组合下的匹配策略。

此外,除了P与A之间的匹配之外,还可以有Q与A、P与Q之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。此次云从科技和交通大学提交的论文中对七种不同的匹配策略分别进行了试验,从而找到了更加合适的匹配策略 。

当智能系统会阅读理解后

大家一定还记得科幻电影《她》中描述的场景:人工智能操作系统萨曼莎在得到主人公的允许后,帮助他阅读邮件资料,总结出需要保留和删除的邮件,并帮他修改信件草稿中的错字,还能与主人公探讨她喜爱的信件片段。与此同时,萨曼莎通过阅读主人公的海量信息来了解他,也通过阅读互联网上的海量数据来了解世界。

当机器学会阅读理解后,能帮助我们更有效地处理工作、生活上的事务。也许你会说科幻电影太超前,以此来作为机器阅读理解的卖点还为时尚早,但科技公司正努力将电影场景变成现实。

据云从科技介绍,公司目前的这一研究成果,在应用领域搭配文字识别OCR/语音识别技术后,将会帮助机器更好地理解人类文字和语言,并广泛应用于服务领域:帮助企业判断客户风险、审计内部文档合规、从语义层面查找相关信息;在社交软件、推荐引擎软件内辅助文字审阅工作,从枯燥的人工文字工作中解放人类。

除了云从科技外,国内的科大讯飞、国外的微软艾伦研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡内基·梅隆大学)、斯坦福大学等在内的全球自然语言处理领域的研究人员,都在共同推动着自然语言理解的进步。

    责任编辑:李跃群