生成式AI训练资料部分来自影子图书馆 数千名作家呼吁要付其版权费

来源:网界网 | 2023-07-31 10:45:04

  基于大型语言模型的生成式 AI 终究还是惹众怒。 近日,8500多名小说、非小说和诗歌作者联合签署了一份致生成式AI领导者的公开信,呼吁OpenAI、Alphabet、Meta、Stability AI、IBM和微软的首席执行官在训练AI时使用受版权保护的材料要征得作者同意、认可,并给予公平补偿。

  信中写道:基于大型语言模型的生成式 AI 技术的存在归功于我们的著作。 这些技术模仿并反省我们的语言、故事、风格和想法。

ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」,數千名作家不滿發聲:得付版權費

  这样的说法可能有失偏颇,但是当我们细究生成式 AI 技术的工作原理之后,倒也是不无道理。具体来说,生成式 AI 的工作原理就是利用机器学习模型,学习人工建立的内容数据集中的模式和关系,然后再利用学习的模式生成新内容。 其中预训练的数据便有着石油燃料的作用。

  以当前的ChatGPT为例,公开资料显示,ChatGPT的训练数据量为8000亿个单词的语言料库,包含了1750亿个参数,预训练数据量达到45TB。

  有意思的是,ChatGPT 如此庞大的资料集来源到底来自那里? 官方却从没说清楚。

  OpenAI 官方曾表示,鉴于 GPT-4 等大规模模型的竞争状况和安全影响,它不再披露有关其数据集来源的信息,并且含糊其词地表示其主要来自Internet、社交媒体、新闻、书籍等。

  在 2020 年介绍 ChatGPT-3 的论文中,尚未爆红的 OpenAI 就坦言,其训练资料集的 15% 来自2 个基于网络上的书籍语料库。 尽管 OpenAI 并没有明确透露这些数据集是什么作品,但有不少爆料者声称这些资料集正是来自以侵犯版权的方式向人们免费提供书籍资料的影子图书馆。

  影子图书馆是指将学术文献和小说开放提供予大众的一类线上数据库。 但此类数据库大多都以侵犯著作权的方式向人们提供文献内容。 影子图书馆以去中心化及匿名见称。 它们的收藏大多源自用户和同类计划。 较为大型的影子图书馆有创世纪图书馆、Z-Library、Sci-Hub、Gigapedia(在2010年关站,改名 Library.nu 后,仍于2012年关站)。 像创世纪图书馆般的影子图书馆以没法负担文献费用的发展中国家人民为其目标受众。

  在今年2月份的时候,OpenAI遭到许多媒体指责,批评其未经授权便擅自使用他们的文章进行训练。 《华尔街日报》记者向 ChatGPT 索取一份训练它的新闻来源清单时,收到的回复中列出了 20 家媒体,其中就包括并未获得授权的《华尔街日报》。 同样「常在河边走」的其他生成式 AI 是否又真的能不湿脚呢?

  因此,种种一切,很难不让那些作家对版权权益是否受到损害而充满疑虑。

  更重要的是,公开信中还谈到,在过去十年左右的时间里,作家的收入下降了40%,目前全职作家到2022年的收入中位数仅为23000美元,AI的入侵可能会导致作家们的境况变得更加困难。

  因此,呼吁者们也在信中发出请求,要求生成式 AI 的领导者做到以下三点。

  获得在您的生成式 AI 程序中使用我们受版权保护的材料等许可

  公平地补偿过去和现在在您的生成式 AI 程序中使用我们作品的作者

  公平地补偿在AI输出中使用我们作品的作者,无论输出是否违反现行法律

ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」,數千名作家不滿發聲:得付版權費

  现在压力就来到了生成式 AI 的领导者了。

  要知道,许多生成式 AI 的领导者在公开场合上都对版权保护作出过较为严谨的口头承诺。 在今年5月份的美国国会听证会上,OpenAI的「掌门人」阿尔特曼就曾强调过内容创作者将受益于 AI 工具,并且掌握对作品的所有权和控制权。 此后,阿尔特曼更是化身“传教士”巡访世界各国,为生成式 AI 擂鼓助威。

  “打脸”来的太快,如今层出不穷的隐私泄漏诉讼、版权侵犯事件,将这封呼吁信彻底地摆在了台面上,成了绕不开的“催命符”。只是这一次,生成式 AI 的领导者们还是不是视而不见呢?

相关阅读

每日精选