当AI遇到网文

2020-09-24 07:01
北京

原创 刘荻青 志象网

\ 本文共2729字,预计阅读9分钟 /

在《参考消息》工作近15年后,童晔决定辞职创业。

《参考消息》是中国发行量最大的日报,报纸内容大多来自于海外的新闻报道,报社每天将大量的海外政治、经济和社会报道翻译成中文。为了应对海量的翻译需求,童晔在报社时也在和同事一同研究如何提高翻译效率、降低成本。其中一个方法就是——机器翻译。

2017年,在AI翻译出现突破的情况下,童晔开始探索用AI技术来翻译网文,帮助中国文学出海。出来创业的区别是,要把中文翻译成外文,内容领域也从新闻转到了文学。

从初始只有三四个人的核心团队,童晔创办的推文科技(下称“推文”)已经发展成60多人的团队。彼时,行业内还没有一家用AI翻译网文的公司。童晔认为,整个市场还处于非常早期的阶段,因而也成为创业公司的一个机会点。

推文科技/推文官网

利用技术翻译一部网文,到最终全球上架,最快只需要48小时。人工智能会先对网文内容元素做拆解、独立生产,最后再拼装组合,对接到包括亚马逊Kindle、Google Books和Apple Books等全球近50家电子书平台。童晔说,这助推了中国小说真正实现海外实时数字出版,出版效率快速提升。

目前,包括连尚文学、掌阅、咪咕阅读等超过60家网文公司,都在使用推文的网文出海行业整体解决方案,将平台上的网文输出至海外。童晔说:“大家现在都在排队出海。”预计到年底之前,这一数字将达到100家。

推文和连尚文学、掌阅、咪咕阅读等网文公司合作/推文官网

除此之外,据报道,阅文集团旗下海外门户起点国际(Webnovel)也在探索用AI技术翻译作品,加速出海。

从中文到英文,推文还在探索将网文以西班牙语、阿拉伯语、俄语输出至海外其他国家。公司也在研究将中国网文以有声书的形式传播出去。相应地,推文也希望能够打开下游渠道,包括和先行出海的中国手机厂商、工具类软件合作,使中国网文能更广泛地触及海外读者。

用48小时触达海外读者

在《参考消息》时,童晔有近十年时间都在关注机器翻译。

推文科技创始人童晔/受访者供图

凭着之前对行业内的关注,童晔认识了一批来自谷歌和微软亚洲研究院的技术专家,后来也成为了推文的技术合作伙伴。

推文做的是to B业务,网文公司将内容给到推文,推文负责帮助网文公司做内容翻译,再到分发给全球的电子书平台,外文版封面的设计、简介的英文化和海外法律维权等都涵盖在内。

具体到一部网文小说最终如何到达海外读者手中,童晔介绍说:“人工智能会先对网文的内容元素做拆解、独立生产,最后再拼装组合,对接到全球近50家电子书平台。一部网文,从翻译到最终全球上架,最快只需要48小时。这也是中国小说真正实现海外实时数字出版。”出版效率因而得到快速提升,翻译本身被规模化,线上可以同时更新几千部小说。

同时,在人工智能进行翻译的前后,也会有大量的人工介入,比如说术语的处理等。人工会和机器协同来解决翻译中的问题。从比例上来看,人工介入的占比可能达到30%。

机器翻译如何确保优质的文本输出?童晔举了个例子说道,就像学医一样,学生起初学习的是内科和外科这些通用的医学知识,后来再细分到心脑血管、神经内科等不同领域。

童晔说:“我们觉得人机协作的生产机制是可行的。” 这和机器学习一样,我们着重教会它文学领域的知识,达到相应的数据的积累,再通过人类和机器的协作完成最终的文本输出。但是对于网文翻译来说,关键在于要发现和界定需要解决的问题,包括清楚的知道机器的边界在哪。

“对症下药”

早在2014年,Wuxiaworld就已经走出去,依靠翻译武侠小说收割了一票海外粉丝。2017年,阅文集团的起点国际也开始出海。到了2019年,在推文完成pre-A轮和A轮融资之后,恰逢网文出海行业需求大涨,网文翻译的效率出现了不小的挑战,而依靠技术翻译网文,推文的业务量快速增长。

据艾瑞咨询《2020年中国网络文学出海研究报告》显示,国内网文规模不断扩大,2019年作品累计规模已经达到2594.1万部,但截至2019年向海外输出网文作品的数量刚刚超过1万部。

《2020年中国网络文学出海研究报告》/艾瑞咨询

而中国网文在海外的发展也还处于初级阶段,在海外市场的规模达到4.6亿元,但国内网文行业市场规模有201.7亿元。

在网文出海有极大潜力的情况下,9月6日,推文联合国内100家重点文学网站及作家,启动“中国网文联合出海计划”,希望能够鼓励中国网文作者进行内容创新、鼓励本土新类型探索、共同扩大网文的国际用户规模。

第四届中国“网络文学+”大会/推文

说到海外市场,童晔认为其整体特点是比较零散,欧美的付费状况相对较好,但是获客成本也高。像东南亚或者非洲地区,他们可能付费情况差一些,但是获客成本相对也低。

但他也提到,因为全球市场用户需求和中国的市场用户需求间存在巨大差异。例如,在中国很火的古代言情小说反而在美国市场中并不讨喜,因为美国移民国家的属性,不能理解宫斗,相反地,这类文章在东南亚市场反响很好。

恰恰是在国内反响一般的作品在海外更受追捧,这从供应端来看,对于这些网络文学企业和作者来说,是一个全新的机会。而且海外市场的容量至少是国内市场容量的三倍以上。

在童晔看来,中国网文出海,包括网文作者针对海外需求来写小说,本质上是一种中国模式,也是对海外传统畅销书模式的颠覆。

网文的多面可能

被问到如何在AI翻译技术层面上取得下一个突破时,童晔称,“关键点还是在于不断发现和定义用户需求。”

他提到,今日头条从2012年开始做推荐引擎,彼时,其他的新闻客户端都在通过人工编辑精选内容。虽然后来很多新闻平台也开始采用推荐引擎,但因为今日头条最早推出的算法推荐机制,其用户群不断增加,业务流转频率高,就能得到更多的数据反馈,对于机器学习的校正和指引也更灵敏。

要不断的发现和定义用户需求,包括现实和潜在需求,通过继续学习,以及人类的辅助来解决问题。因而,就能达到一种系统性的优势。推文在三年时间内,也是通过大量读者反馈和需求的洞察,来针对性的去解决技术当中的问题。

9月初,推文获得了由NBT资本领投的数千万人民币A+轮融资。童晔称,新一轮融资主要还是用于AI技术的研发升级、网文出海开放平台的建设等。

更重要的是组织中国网文的供应链,包括网文作者和网文平台,针对全新的市场来生产满足全球用户的需求的在线小说。因此,推文也会做相应的分层管理,包括整个生产的分发和推荐。

目前,推文翻译的网文在包括亚马逊Kindle、Google Books和Apple Books在内的50多个海外平台进行分发,下一步还会加深更精细的合作。童晔说,推文六个合伙人当中有两位都曾在亚马逊担任过高管,他们对于数字出版行业的认知、内容精准推荐上也更在行。

谷歌Play Books应用/The Verge

推文AI翻译技术支持中文转英文,预计到了2021年还会增加西班牙语、俄语和阿拉伯语内容。童晔介绍说,在语种选择上主要是看市场容量的大小。这几种语言在世界上的使用范围很广,每种语种的全球使用者都超3亿。相对来说,这些地区的出版市场也比较落后。

推文还在探索有声书市场。童晔说,公司和喜马拉雅有战略合作,喜马拉雅也是公司股东。有声书市场在全球的增长都非常迅猛,它和文本阅读是截然不同的场景,在进入海外市场的路径上也会依照文本出海的路线。

同时,推文也不排除和硬件手机厂商合作,因为其网文出海开放平台,不仅仅是内容的开放,同时也是渠道的开放。在上游接入内容后,相应地,也希望能够打开下游渠道。

而中文作品翻译成外文后,要如何通过中国公司的渠道推广,手机就成了很好的接触海外的渠道之一。此外,包括像猎豹、茄子快传等工具类软件也是很好的传播渠道,推动中文作品触达海外用户。童晔称,这本身也是中华文化走出去的一部分。

原标题:《当AI遇到网文》

阅读原文

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。