传微软联手新闻集团旗下哈珀柯林斯用海量图书数据训练AI模型

据知情人士透露，微软公司(MSFT.US)与新闻集团-B(NWS.US)旗下的哈珀柯林斯出版公司达成协议，计划利用后者丰富的非小说类图书资源来训练其人工智能模型，以提升模型的质量和性能。这一合作仅限于使用精选的旧书进行模型训练，并不涉及创作新书，且作者有权选择是否参与。具体而言，微软希望将哈珀柯林斯图书纳入其尚未公布的人工智能模型中，以拓展高质量文本来源，提高模型的准确性和专业知识提供能力。尽管微软拒绝置评，但哈珀柯林斯已证实了这一协议，并表示该协议将“允许有限使用精选的非小说类旧书来训练人工智能模型”。同时，哈珀柯林斯强调，这一协议的范围有限，对尊重作者权利的模范产出有明确的限制，作者可以选择是否参与。 “我们的任务之一是为作者们创造机遇，让他们深思熟虑，同时确保他们作品的核心价值以及我们共同享有的收入和版税得到保护，”哈珀柯林斯表示。“这份协议范围有限，对那些尊重作者权益的杰出作品设定了明确的界限，它成功地实现了这一目标。” 据了解，科技公司一直在寻找更多高质量文本来源来训练人工智能模型，微软等公司也不例外。他们通过获得许可，使用从社交媒体网站到新闻文章的一系列数据，以使他们的程序更准确、更好地回答问题或提供特定主题的专业知识。值得一提的是，新闻集团此前已与OpenAI签署协议，允许其使用旗下多家出版物的内容。微软也与多家出版商合作开展人工智能项目。此外，今年早些时候，谷歌与Reddit达成了一项价值6000万美元的协议，使得这家搜索巨头能够利用大量的subreddits来训练其AI模型。然而，一些出版商对人工智能公司未经许可引用内容的行为表示不满，并提起诉讼。例如，《纽约时报》起诉了OpenAI和微软，指控其侵犯版权。综上所述，微软与哈珀柯林斯达成的协议标志着科技公司在寻求高质量文本来源以训练人工智能模型方面的又一重要进展。然而，如何在利用这些资源的同时尊重作者权利，仍是出版商和科技公司需要共同面对的挑战。