当诗歌邂逅算法
你是否也有过这样的时刻:
满腔情志汹涌不知如何书写,感于古诗艰深只好望而却步……
倘在过去,名师教诲或许难得,大家只能独自苦学;而在当下,人工智能却可以“飞入寻常百姓家”,成为诗词爱好者的良师益友。
诞生于清华大学自然语言处理与社会人文计算实验室(THUNLP)的九歌,便是这样一位“饱读诗书善点墨”的“诗词大师”。自诞生以来,九歌以其流畅自然的诗篇、丰富开放的机制收获了一众关注,也吸引着更多人走近诗歌、走近传统文化。
广纳苦读成好诗
提及人工智能写诗,多数了解甚微的人都会持怀疑态度:人工智能可以写诗?
人工智能的语言智能研究起步不过数年,而诗歌是人类语言高度凝练、高度艺术化的体现,古诗更是中华传统文化的璀璨明珠。人工智能虽然具有杰出的储存与计算能力,但在如何写出一首好诗上,还是得参考人的经验。
清代孙洙在《唐诗三百首》序言中曾言:“熟读唐诗三百首,不会作诗也会吟。”九歌系统录入了从魏晋南北朝到近现代所能找到的90万首诗歌,通过对这些诗歌的反复学习,与标注有诗歌情感、韵律、质量数据库的支撑,九歌团队设计算法,建立出诗歌自动生成模型。
诗歌创作不仅需要满足格律的要求,篇章连贯、新颖个性才能成为佳品。这也是九歌团队不懈探索的目标。以往团队大都从数学视角出发,将诗歌生成理解为序列预测问题,九歌并没有止步于此。正如研发者矣晓沅所言,“诗歌是一种高度文学化、艺术化的文本”,这一洞见引领九歌从学科交叉中获取启发——针对诗歌创作的特点和难题,设计出专门的模型结构优化写作。
《文心雕龙》有载:“夫裁文匠笔,篇有小大;离章合句,调有缓急;随变适会,莫见定准……故能外文绮交,内义脉注,跗萼相衔,首尾一体。”矣晓沅解释道,“在写作中,要动态地、灵活地构建出整首诗的骨架主线,以此对上下文的内容和主题进行约束,做到上下紧密相关,意脉连贯。同时又要断续离合、荡开笔墨,允许一定的自由与发挥的空间,不能约束得太死板。”
基于此,研发团队对《文心雕龙》中的“意脉”进行数学建模,设计出了显著性线索机制模型,主题突出的同时使诗歌全篇更为连贯;参考认知心理学中的工作记忆原理,团队提出了基于工作记忆模型的诗歌生成方法,增强与用户输入的关键词的扣题性,实现语句间的连贯表达、合理过渡。
许多人认为,AI写诗最致命的弱点就是缺乏情感。为了使AI更富“人”情,九歌将每一句的情感和内容分别构成序列,不仅能够控制全诗的情感,还可以比较细致地预测每一句的情感,使诗歌内具有起承转合的情感流动。用户可以在“藏头诗”模块选择“喜悦”“较喜悦”至“悲伤”的五种情感基调。此外,背靠模型,九歌可以自动划分风格并实现对诗歌的风格控制,如“萧瑟凄凉”“忆旧感喟”等,模仿人类类型化的风格表达。
清华大学自然语言处理与社会人文计算实验室(THUNLP)成员合影。
亦师亦友伴诗途
你说“不想开学”,它答“何必读书”;你说“谁在用琵琶弹奏一曲东风破”,它答“我来把玉笛吹开满园春意浓”……一来一回,趣意盎然,传统文化的魅力悄然彰显,让人不自觉沉浸其中。
九歌对对子。
这是九歌于2021年春节期间推出的一项新功能——“九歌对对子”,在目前的2.0版本中,用户还可以“翻转对联”,为下联寻找上联,新颖有趣,不少网友玩得不亦乐乎。而这也正是九歌团队一直在为之努力的一大目标,打破人们与传统文学间的无形之壁,让更多人走近传统文化。为了这一目标,九歌团队持续多方位的探索——
通过文本大数据、评分统计,研发者在Github(GitHub是一个面向开源及私有软件项目的托管平台,因为只支持Git作为唯一的版本库格式进行托管,故名GitHub )上展列了最受欢迎的300首唐诗,它们既反映了唐诗在现代文化传播中的传承与使用度,又为诗歌初学者提供一个实用、新颖的切入点。
在中国人民大学附属中学、清华大学附属中学、澳门培正中学及中国科技馆、全国中学生奥林匹克语言学竞赛上,九歌举办面向广大中学生的科普学术讲座,开展科学普及活动。
九歌参加清华大学人工智能成就展。
在央视的《机智过人》、与腾讯合作的中秋看图作诗活动以及多项人工智能展中,九歌也均有惊喜的亮相。“作为AI和诗词的结合,我们希望九歌能吸引到原本对诗词不感兴趣的人,也许他们在了解后能对诗词有更深入的了解。”矣晓沅说道。
在吸引更多人走近传统文化之外,九歌另一项重要的意义在于担任诗歌初学者的智能“助教”。
依赖于九歌的评分与交互体系,系统可以对用户生成诗歌的连贯性等方面作出评价。如果不是非常满意,用户可以与AI一起进行局部至整体的修改,如将“秋月满江城,天风昨夜生。寒蛰啼露草,黄雪万家声。”一诗中“天”改为“寒”。在修改后,系统将会对诗歌再次评分,从而体会推敲琢磨的妙处。用户还可以选择与生成的诗歌语义相近的古人诗作,在与古人诗作的比对中,更好地掌握平仄规律,领悟诗歌创作的真味。
九歌所作的诗歌。
诗长路漫且畅言
2019年,九歌在Github上开源了多个模型与数据集。谈到为什么做出开源的决定,矣晓沅说:“2015年底开始做九歌时,国内古诗生成领域几乎是一片空白,经过大量的摸索才有了今天的成果。一个团队的力量很微小,把成果分享出来也是希望对诗歌生成感兴趣的研究者可以少走弯路,开发出更先进的AI系统,吸引更多的人关注优秀的中华传统文化。”
如今,九歌的探索仍在继续。清华大学计算机系教授、THUNLP实验室指导老师孙茂松教授对九歌的未来充满期待:“我们会设计更加智能的新算法,使九歌可以做的诗更贴近情境,并能够有意识地运用典故。同时,通过改进评分系统、押韵平仄规律,我们希望九歌可以给人们写古诗、理解古诗提供更大的帮助。我们也会加入如古诗词接龙等益智游戏,创造古诗词的应用环境,以激发大家学习古诗词、学习古代文化的兴趣。”从矣晓沅到刚刚加入实验室的清华特等奖学金得主白钰卓,新鲜优秀血液的不断注入,使九歌持续迸发着新的活力。
反向词典(https://wantwords.net )
古诗词之外,THUNLP实验室还开拓着辅助大众书面表达的多种可能。生活中,我们常常会遇见有想说的话,却不知如何表述的问题,“反向词典”正是基于此而诞生。与传统词典输入词汇、查询含义的搜索过程相反,输入内容大意,“反向词典”就能输出相关词汇,为词不达意者提供更丰富准确的选择。
此外,实验室还推出了另一个检索神器——“据意查句”。当你心情烦闷在朋友圈吐槽“太烦了”,它会告诉你“心不怡之长久兮,忧与愁其相接”;当炎炎夏日你只会反复念叨着“太热了”,它会告诉你“火伞高张,炎威如炽”;当你思念一个人说“好想你”,它会告诉你“从别后,忆相逢,几回魂梦与君同”……
反向词典(https://wantwords.net )
只要将你想说的内容输入“据意查句”,便可收获名人学者关于相似含义更优美蕴藉的表达,包含古诗文、歇后语、熟语、影视台词等诸多类别。在每个句子下面,“据意查句”还提供了一键复制、点赞、翻译、反馈等选项,在提升用户体验感的同时,也帮助团队更好地提升程序。
无论何时,人们始终追求更优美、更深远的表达。AI从人类的诗歌中学习创作,在发展到一定程度后又可以给人类带来启发,让人类创作出更好的诗歌,这些诗歌再进一步促进AI的升级,形成良性循环。在科技的助力下,人文、语言、传统,以一种新兴的姿态创造新的惊喜。