OpenAI回应《纽约时报》起诉：用公开素材训练大模型合理

澎湃新闻记者喻琰

2024-01-09 14:32

来源：澎湃新闻

·OpenAI在此次回应中共提出四点主张。OpenAI认为，使用公开的互联网材料训练人工智能模型是合理的；《纽约时报》并未讲述完整的故事，似乎故意操纵提示，其诉讼毫无根据。

当地时间1月8日，ChatGPT的开发机构OpenAI在官网发布一份声明，针对近期《纽约时报》提起的诉讼进行了首次正式回应。

2023年12月27日，《纽约时报》起诉OpenAI和微软公司，指控这两家公司未经许可使用其数百万篇文章以训练人工智能模型。

OpenAI在回应中共提出四点主张，第一，OpenAI愿意与新闻机构合作并创造新的机会；第二，使用公开的互联网材料训练人工智能模型是合理的。但OpenAI提供了退出的选择，因为这是正确的做法；第三，反刍事实（regurgitate facts）确实是一种罕见的错误，OpenAI正在努力将其减少到零；第四，《纽约时报》并未讲述完整的故事，其诉讼毫无根据。

OpenAI在声明中表示，使用公开的互联网材料来训练人工智能模型，得到了学术界、图书馆协会、民间社会团队、初创公司、美国领先企业、创作者等人士的广泛支持，其他地区和国家，包括欧盟、日本、新加坡和以色列，也有法律允许用受版权保护的内容训练模型。

此外，OpenAI为出版商提供了一个简单的选择退出流程，防止OpenAI访问他们的网站，《纽约时报》于2023年8月已采用这一退出流程。

反刍（Regurgitation）是指特定内容在大模型的训练数据中多次出现。OpenAI强调，公司采取了措施来限制非故意记忆，并防止大模型输出中的反刍现象。OpenAI还希望用户采取负责任的行动，故意操纵其大模型进行反刍，并不是对技术的适当使用，也违反了使用条款。

OpenAI称，《纽约时报》看到了一些内容的反刍，但拒绝分享示例。“有趣的是，《纽约时报》提到的反刍似乎来自多个第三方网站上大量传播的多年前的文章。他们似乎故意操纵提示，通常包括冗长的文章摘录，以便让我们的模型反刍。即使使用这样的提示，我们的模型通常也不会像《纽约时报》暗示的那样表现，这表明他们要么指示模型反刍，要么从多次尝试中精心挑选示例。”

OpenAI的声明写道，该公司正在不断提高系统对反刍训练数据的对抗性攻击的抵抗力，并且最近的模型已经取得了很大进展。

OpenAI透露，2023年12月19日，该公司与《纽约时报》进行了最后一次沟通，当时他们向对方解释称，和其他的单一来源一样，《纽约时报》凭自身并不能构成有意义的贡献，对未来的模型训练也不会产生足够大的影响。

“正如人类接受广泛的教育来学习如何解决新问题一样，我们希望我们的人工智能模型能够观察世界范围内的信息，包括来自每种语言、文化和行业的信息。由于模型是从人类知识的巨大集合中学习的，因此任何一个部门（包括新闻）都只是整体训练数据的一小部分，而任何单一数据源（包括《纽约时报》）对于模型的预期学习并不重要。”该公司的声明称。

《纽约时报》在起诉中并未提出具体的赔偿金额要求，但指出被告应为“非法复制和使用《纽约时报》独特且有价值的作品”和与之相关的“价值数十亿美元的法定和实际损失”负责。此外，《纽约时报》要求两家公司销毁任何使用到《纽约时报》版权材料的聊天机器人模型和训练数据。

《纽约时报》还表示，已于去年四月与微软和OpenAI进行接触，对两家公司使用其受知识产权保护的内容表示了担忧，并探讨了“一种友好解决方案”的可能性，其中可能包括一项商业协议以及围绕生成式AI产品的“技术限制”。但是，谈判并没有得出解决方案。

在声明中，OpenAI最后表示，“我们认为《纽约时报》的诉讼毫无根据。尽管如此，我们仍然希望与《纽约时报》建立建设性的合作伙伴关系，并尊重其悠久的历史。”

责任编辑：郑洁

图片编辑：陈飞燕

校对：栾梦