生成式AI训练资料部分来自影子图书馆数千名作家呼吁要付其版权费

来源：网界网 | 2023-07-31 10:45:04

　　基于大型语言模型的生成式 AI 终究还是惹众怒。近日，8500多名小说、非小说和诗歌作者联合签署了一份致生成式AI领导者的公开信，呼吁OpenAI、Alphabet、Meta、Stability AI、IBM和微软的首席执行官在训练AI时使用受版权保护的材料要征得作者同意、认可，并给予公平补偿。

　　信中写道：基于大型语言模型的生成式 AI 技术的存在归功于我们的著作。这些技术模仿并反省我们的语言、故事、风格和想法。

ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」，數千名作家不滿發聲：得付版權費

　　这样的说法可能有失偏颇，但是当我们细究生成式 AI 技术的工作原理之后，倒也是不无道理。具体来说，生成式 AI 的工作原理就是利用机器学习模型，学习人工建立的内容数据集中的模式和关系，然后再利用学习的模式生成新内容。其中预训练的数据便有着石油燃料的作用。

　　以当前的ChatGPT为例，公开资料显示，ChatGPT的训练数据量为8000亿个单词的语言料库，包含了1750亿个参数，预训练数据量达到45TB。

　　有意思的是，ChatGPT 如此庞大的资料集来源到底来自那里？官方却从没说清楚。

　　OpenAI 官方曾表示，鉴于 GPT-4 等大规模模型的竞争状况和安全影响，它不再披露有关其数据集来源的信息，并且含糊其词地表示其主要来自Internet、社交媒体、新闻、书籍等。

　　在 2020 年介绍 ChatGPT-3 的论文中，尚未爆红的 OpenAI 就坦言，其训练资料集的 15% 来自2 个基于网络上的书籍语料库。尽管 OpenAI 并没有明确透露这些数据集是什么作品，但有不少爆料者声称这些资料集正是来自以侵犯版权的方式向人们免费提供书籍资料的影子图书馆。

　　影子图书馆是指将学术文献和小说开放提供予大众的一类线上数据库。但此类数据库大多都以侵犯著作权的方式向人们提供文献内容。影子图书馆以去中心化及匿名见称。它们的收藏大多源自用户和同类计划。较为大型的影子图书馆有创世纪图书馆、Z-Library、Sci-Hub、Gigapedia（在2010年关站，改名 Library.nu 后，仍于2012年关站）。像创世纪图书馆般的影子图书馆以没法负担文献费用的发展中国家人民为其目标受众。

　　在今年2月份的时候，OpenAI遭到许多媒体指责，批评其未经授权便擅自使用他们的文章进行训练。《华尔街日报》记者向 ChatGPT 索取一份训练它的新闻来源清单时，收到的回复中列出了 20 家媒体，其中就包括并未获得授权的《华尔街日报》。同样「常在河边走」的其他生成式 AI 是否又真的能不湿脚呢？

　　因此，种种一切，很难不让那些作家对版权权益是否受到损害而充满疑虑。

　　更重要的是，公开信中还谈到，在过去十年左右的时间里，作家的收入下降了40%，目前全职作家到2022年的收入中位数仅为23000美元，AI的入侵可能会导致作家们的境况变得更加困难。

　　因此，呼吁者们也在信中发出请求，要求生成式 AI 的领导者做到以下三点。

　　获得在您的生成式 AI 程序中使用我们受版权保护的材料等许可

　　公平地补偿过去和现在在您的生成式 AI 程序中使用我们作品的作者

　　公平地补偿在AI输出中使用我们作品的作者，无论输出是否违反现行法律

ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」，數千名作家不滿發聲：得付版權費

　　现在压力就来到了生成式 AI 的领导者了。

　　要知道，许多生成式 AI 的领导者在公开场合上都对版权保护作出过较为严谨的口头承诺。在今年5月份的美国国会听证会上，OpenAI的「掌门人」阿尔特曼就曾强调过内容创作者将受益于 AI 工具，并且掌握对作品的所有权和控制权。此后，阿尔特曼更是化身“传教士”巡访世界各国，为生成式 AI 擂鼓助威。

　　“打脸”来的太快，如今层出不穷的隐私泄漏诉讼、版权侵犯事件，将这封呼吁信彻底地摆在了台面上，成了绕不开的“催命符”。只是这一次，生成式 AI 的领导者们还是不是视而不见呢？

每日精选

生成式AI训练资料部分来自影子图书馆数千名作家呼吁要付其版权费

　　基于大型语言模型的生成式 AI 终究还是惹众怒。近日，8500多名小说、非小说和诗歌作者联合签署了一份致生成式AI领导者的公开信，呼

2023-07-31
任天堂长期合作伙伴PixArt暗示Switch后继主机将于明年第一季推出

　　除了近期在美国联邦贸易委员会与微软之间诉讼文件透露任天堂准备推出下一款游戏主机，市场消息更指出任天堂此款游戏主机将于明年第一季

2023-07-31
阿里巴巴零售科技专利数居世界首位拥有1141项专利

　　在作为无人店铺运营等流通业的新一代科技的零售科技领域，中国的势头正在加强。在专利取得数量方面，阿里巴巴集团跃居首位，超过了美

2023-07-31
金天速与比亚迪汽车售后服务事业部签约合作

　　日前,信息化解决方案服务商金天速对外宣布,公司与比亚迪汽车售后服务事业部达成合作协议,双方于近期已经完成采购合同签约。据了解,此次

2023-07-31
传苹果新iPhone 15将有6大变化！彭博社爆料近三年最大规模升级

　　果粉荷包恐要缩水了！外界盛传，苹果将调涨新一代 iPhone 15 售价，不过苹果也将带来一些补偿！《彭博社》爆料盘点iPhone 15多

2023-07-31
SiC模组供不应求安森美拿下4000万美元客户长单

　　安森美宣布，全球汽车零组件大厂麦格纳电驱系统将采用自家EliteSiC智能电源方案，且麦格纳将斥资4000万美元协助安森美采购最新碳化硅设

2023-07-31
ACROBiosystems百普赛斯出席贝克曼库尔特流式交流会，助力加速细胞治疗领域生物药研发上市进程

　　7月26日，ACROBiosystems百普赛斯高级产品研发经理孙朋卫博士受邀出席贝克曼库尔特流式工业用户交流会，并做相关主题分享。本次交流会

2023-07-31
Chrome浏览器侧边栏集成谷歌搜索功能未来或许将集入Bard或SGE

　　谷歌 Chrome 浏览器是目前全球最受欢迎的网络浏览器之一，但它也面临着来自微软 Edge 的激烈竞争。　　大家都知道，微软 Edge 浏

2023-07-31
疑似荣耀X50 GT入网支持最高35W功率的快速充电技术

　　近日，一款型号为CLK-AN00的智能手机已经正式通过了国家质量认证。信息显示，这款手机的申请人和制造商均为荣耀终端有限公司，生产厂商

2023-07-31

生成式AI训练资料部分来自影子图书馆数千名作家呼吁要付其版权费

相关阅读

每日精选