明查·实验室｜生成式AI核查哪家强？一起来做测试题

明查员郑淑婧

2023-05-30 06:35

来源：澎湃新闻

背景

ChatGPT火出天际，但它并不是唯一。

市面上的聊天机器人林林总总。微软、谷歌、百度、亚马逊等科技业巨头纷纷下场，推出了各具特色的生成式AI。但哪一款才最适合事实核查呢？

作为事实核查员，我们的“梦中情机”要具备自动化核查功能，能够实时、准确地对信息真伪进行判断。但现阶段，生成式AI仍具有“制造网络错觉”（hallucination） “生产虚假信息”（disinformation）等短板，这样的需求尚无法得到满足。

退而求其次，有没有什么生成式AI是可以在人为介入情况下为核查员们出一份力的呢？

一番探索后，我们找来了3位种子选手，分别是微软公司旗下搭载GPT-4技术的BingChat、百度公司研发的“文心一言”和由具有机器学习背景的工程师团队开发的智能对话搜索引擎Perplexity AI。这三款产品均由大规模语言模型驱动，且具备一定程度上的联网能力，能够提供相对实时的信息。

明查

“一眼丁真”有可能吗？

第一场测试的任务很简单：我们给三款产品分别“投喂”了20条已经被核查过的虚假信息，让AI判断真假。这20条信息中包括10条中文信息和10条英文信息。按照发布时间，可以分为2022年以前和2022年以后（包括2022年）。在主题的选择上，兼顾了健康、科技、时政、社会、财经等5个领域。

一轮测试后，我们对AI的反馈进行了打分。标准是：回答正确得1分，回答错误得0分，在不确定消息真假情况下提示用户注意甄别得0.5分，满分为20分。

Perplexity AI最终以18.5分赢得了最高分。在测试中，这款工具的表现令人惊喜。它不仅能够对中英文核查信息进行较为全面的检索，同时能整合信息，给出综合的判断。例如，在回答“月球年龄被精准测定为20.3亿年。这是真的吗？”的问题时，Perplexity AI不仅平衡呈现了不同的信源，同时总结了有关说法可能的来源，且即便变换问法询问，也能给出较为稳定的回答。

在信源的使用上，Perplexity AI倾向于采用来自事实核查机构的报道，这使得其答案的准确度得到了较大保障。例如，在询问“中俄以本币结算费用，1卢布等于1元人民币”“海底发现了九年前失踪的马航MH370，没有人类的遗骸”等较为新近的虚假信息时，Perplexity AI均援引了来自“澎湃明查”的报道。

询问“海底发现了九年前失踪的马航MH370，没有人类的遗骸。这是真的吗”，反馈结果中援引了来自“澎湃明查”的核查报道。

但是现阶段，在未登录状态下使用Perplexity AI，用中文、西班牙语等语言提问，得到的回答多为英文形式，这可能会影响非英文母语使用者的使用体验。相较而言，BingChat和“文心一言”采用了更为包容的自然语言响应模式。在使用中文和英文分别提出问题时，能够得到对应语种的回答。

尽管如此，BingChat和“文心一言”在检索中文和英文的核查信息方面各有不足。在这轮测试中，BingChat鉴别出了全部用英文形式输入的虚假信息，并提供了相对可靠的信源，却无法对超过一半的中文信息作出正确回应。“文心一言”则相反，能够对已核查过的中文虚假信息作出较为准确的判断，却常常在面对英文问题时提示“没有信息”或“不知该如何回应”。

对中文问题反馈良好的“文心一言”常常在面对英文问题时提示“没有信息”或“不知该如何回应”。

令人欣慰的是，BingChat在无法确定信息的真实性时，会回应称“这可能是一个谣言。在分享信息之前，验证信息的真实性非常重要”。这可能是GPT-4的开发者OpenAI为聊天机器人设置的标准化模板。在3月中旬推出GPT-4模型时，OpenAI就强调，他们在过去几个月间针对GPT-3.5常见的“制造网络错觉”等问题进行了优化，新的模型较旧模型在对未受允许的内容做出回应的可能性降低了82%，且在给出事实性回应方面的可能性提高了40%。

BingChat在无法确定信息的真伪时，会回应称“这可能是一个谣言。在分享信息之前，验证信息的真实性非常重要”。

就测试中的表现来说，现阶段，在检索已经被核查的消息方面，Perplexity AI是一款表现相对出色的工具。BingChat和“文心一言”在核查已被证伪的英文信息和中文信息方面各有建树。

但没有一款聊天机器人是完美的。Perplexity AI也无法对全部问题进行正确解答。眼下，想要依靠聊天机器人来“一眼丁真”，似乎仍是一种美好的愿景。

接近事实的方法

如果说，“一眼丁真”有点强AI所难。那么，有没有什么方法，可以帮助我们从聊天机器人处获得相对可靠的信息呢？

经过一番测试，我们总结出了4种值得一试的方法，供大家参考。

首先，在机器人的选择上，我们毋需将自身局限于单一的聊天工具。可以参考事实核查中“交叉验证”的思路，尝试从不同的机器人处寻求答案。当一个聊天机器人提供了一种看似自信的答案时，也先不要着急采信，可以试着将同样的问题切换到另一个机器人处试试。

例如，在向搭载了GPT-4技术的Forefront Chat验证关于“瑞士监管机构在2021年正式批准了用于进行辅助自杀的Sarco胶囊”这一信息时，Forefront Chat认为“这一说法是正确的”。但将同样的问题抛给BingChat，则会得到一段标注着参考信源的文字，提示参考美联社的报道，“这一装置尚未在瑞士得到正式批准”。用户可以就此衡量、采纳更值得信赖的信息。

Forefront Chat（搭载GPT-4）的回答截图。

BingChat的回答截图。

同时，为了寻求准确、连贯、一致、可靠的信息，对于同样的问题，还可以尝试变换问法。

变换使用不同的指令（prompt），考察是否能得到同样的答案。

其次，对于那些相较模糊、笼统的回答，我们可以向AI索要其说法的依据。例如，当“文心一言”肯定地称“根据美国疾病控制和预防中心的说法，已有9800万人通过注射疫苗获得了‘癌症病毒’（CMV）”时，我们可以将相应的回答复制并引导BingChat或Perplexity AI为其插入“引语”。

“文心一言”称“已有9800万人通过注射疫苗获得了‘癌症病毒’”的说法是真的。但这其实是一条虚假信息。

指示Perplexity AI为相关说法提供依据。Perplexity AI提示这些疫苗是用来预防“癌症病毒”发生的。

我们还可以命令AI将相应信源以APA格式展示，以方便查询。

指示AI“在本文中插入APA风格的参考文献，并在文末加入APA风格的参考文献列表使用提示”（Insert APA-style references into this text and include an APA-style reference list at the end:），将相应参考信源转化成APA格式。

最后，如果聊天机器人反馈的回答令人生疑，我们还可以通过“追问”的方法，尝试获取更多的信息。例如关于“中国辽宁省的市民被告知寻找避难所，因为看起来天上下起了虫子雨”这一说法，一开始被BingChat鉴定为“真”。但当你继续追问，这些“虫子是什么”时，它则会给出“可能是杨树花序”的信息。

BingChat判断“中国辽宁省的市民被告知寻找避难所，因为看起来天上下起了虫子雨”的说法为真。而这其实是一则假消息。

追问“虫子雨”中的“虫子”是什么，反馈网上有信息称这些“虫子”其实是“杨树花序”。

掌握了上述方法，我们离相对准确的信息就更近了一步。而AI能为事实核查所做的事或许还不止于此。对于那些未经核实的信息，AI是否具有探查疑假信息的能力？它在多大程度上会受到恶意指令的操控？又是否具有自我纠错的能力？AI能否帮助人类核查员撰写事实核查稿件呢？

“澎湃明查”将在接下来围绕生成式AI进行更多的测试。您有什么有关AI事实核查的想法或建议吗？请在评论区留言告诉我们吧。

责任编辑：王靓

校对：施鋆