2023-08-22 20:51:01來源:極客公園
為了訓練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經許可,從互聯網上收割了數百萬受版權保護的作品,在版權法的灰色地帶中游弋。
如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓練數據集中的大多數書籍來自盜版來源和非授權網站。一旦被判侵權,公司有可能將面臨巨額罰款或重構算法的局面。這也導致,如今 AI 公司越來越不愿意分享 AI 訓練數據的詳細信息。
【資料圖】
但一些公開的盜版語料庫已經被盯上。
近日,有人發(fā)現一個叫 Book3 的數據集,包含近 20 萬本書籍,囊括村上春樹、史蒂芬·金等暢銷書作家的著作,這個數據集被用在了訓練 AI 模型上,最近遭到反盜版組織的反復攻擊。
版權問題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢。
Books3,AI 公司的秘密一直以來,對于 AI 模型的訓練數據并不完全透明。今年,多名美國作家針對 OpenAI 提起了集體訴訟,指控其使用盜版書籍來訓練其語言模型,侵犯版權并違反了多項法律。
這些作家主張的證據很簡單,因為些他們從未同意 OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準確摘要,這讓他們認為這些信息肯定是從某個地方獲取的。
根據早期 GPT 版本的研究論文,其訓練數據集有部分來自于「兩個基于互聯網的書籍語料庫」,它們被簡單地稱為「Books1」和「Books2」,這些數據集具體包含哪些作品比較含糊。Books1 似乎是 bookcorpus,里面有數百本書明確聲明「不得以商業(yè)或非商業(yè)目的復制和分發(fā)」。Book2 則成為一個謎團,大多人猜測它們來自于「臭名昭著的影子圖書館網站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。
其中,Z-Library 成立于 2008 年,是互聯網最大的盜版電子書庫之一。2022 年 11 月,美國政府起訴兩名運營該網站的俄羅斯公民,這兩人在阿根廷被逮捕。
至于 GPT-4 的 45TB 訓練數據,其中包含什么內容的信息更加有限,OpenAI 多年來逐漸減少了其訓練數據的披露。
盡管目前沒有直接證據表明 OpenAI 使用盜版網站來培訓 ChatGPT,但一些 AI 模型此前已經明確在盜版書籍上進行了訓練,包括使用「Books3」數據集的 AI 模型。
EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 數據集進行訓練的,而 Pile 數據集包含多個英語文本集,其中之一就是名為「Books3」的數據集。
Books3 是用于訓練 AI 的最著名的盜版書籍庫之一,最初是由 AI 開發(fā)人員和知名開源 AI 支持者 Shawn Presser 于 2020 年上傳。它包含 37 GB 的文本,包括 196640 本純文本格式的書籍,并在盜版網站 bibliotik 上托管。
「假設你想訓練一個世界級的 GPT 模型,就像 OpenAI 一樣。怎么做?你沒有數據?,F在你可以做到,現在每個人都這樣做。為你呈現「books3」,又名「all of bibliotik」。」Shawn Presser 最早在社交平臺上寫道。
開源AI支持者Shawn Presser于2020年上傳「books3」| X然而,反盜版組織也在采取行動,代表相關利益群體,試圖限制未經授權的 AI 訓練數據的使用。
這段時間,反盜版組織 Rights Alliance 向相關站點發(fā)送刪除通知后,相關站點已將 Books3 數據集下線,導致嘗試訪問該數據集的用戶會看到 404 錯誤。Rights Alliance 還聯系了 AI 模型托管平臺 Hugging Face(該站點托管了 Books3 下載鏈接)以及 EleutherAI。然而,盡管一些鏈接被下架,該數據集的副本并未消失,仍然在其他地方出現。
遭到針對后,Shawn Presser 繼續(xù)發(fā)布新的下載鏈接,他稱,除非反對者打算讓 ChatGPT 下線,或者通過訴訟將其告到滅亡,否則,他希望每個人都能夠制作自己的 ChatGPT,他還稱自己「很樂意入獄 10 個月(海盜灣創(chuàng)始人服過的最高刑期),因為我推動了科學進步并賦予了你們復制 ChatGPT 的能力?!?/p>
「復制ChatGPT這樣的模型的唯一方法,是創(chuàng)建像 Books3 這樣的數據集。」Shawn Presser 稱:「每個營利性公司都會秘密地這樣做,不會將數據集發(fā)布給公眾。」「沒有 Books3,我們就生活在一個只有 OpenAI 和其他億萬美元公司才能訪問這些書籍的世界中,這意味著你不能制作自己的 ChatGPT。沒有人能。只有億萬美元的公司才有資源做到這一點?!?/p>
包括 Meta 在內的一些公司曾經使用過 Book3,另外,Meta、谷歌都使用過的 C4 訓練數據集也被詬病過,現在這些公司對其語言模型中的內容更為保密。
Meta 的 Llama 2 增加了 40% 的數據,但在其白皮書中,該公司對其最新的 大語言模型使用了什么數據更為猶豫,唯一提到的是「一個新的混合的公開可用在線數據」。隨著 AI 和版權之間的摩擦升溫,公司越來越不愿意分享 AI 訓練數據的詳細信息。
萬名作家聯名反對超一萬名作家已經在敦促 AI 公司停止未經許可使用其作品,他們不希望 AI 模仿其作品并學會寫作,除非科技公司為此付費。
美國的作家協會已經向巨頭們發(fā)了一封公開信,包括 OpenAI、谷歌、Meta、Stability AI、IBM 和微軟公司的各大 CEO,要求他們停止未經許可使用他們的作品,或對使用作品進行補償。
其中包括《達芬奇密碼》作者丹·布朗、《饑餓游戲》作者蘇珊·柯林斯、《使女的故事》作者瑪格麗特·阿特伍德、《自由》作者喬納森·弗蘭岑等人都簽署了這封公開信,簽署的作家名單長達 100 多頁。
一萬名作家簽署公開信 |美國作家協會目前,該作家協會正嘗試先在不提起訴訟的情況下解決爭端,因為「訴訟需要大量的資金,而且需要很長時間?!?/p>
但也有一些文學界人士愿意直接在法庭上與科技公司對抗,控訴 Meta 或 OpenAI 等使用盜版來訓練他們的 AI。此外,文學經紀人們正在與出版商商討,要更新出版合同條款,禁止未經授權的 AI 訓練用途,大部分出版商都愿意限制 AI 使用他們的出版物。
根據美國作家協會的調查,90% 的作家認為,作家應該獲得對其作品用于訓練生成式人工智能的補償,65% 的作家支持建立一個集體授權制度,以補償作者的作品被用于訓練生成式 AI。
此外,69% 的作家認為他們的職業(yè)受到生成式 AI 的威脅,70% 的作家認為出版商將開始使用 AI 來完全或部分生成書籍,取代人類作者。
除了發(fā)公開信、打官司、完善合同,出版業(yè)還在進一步尋求立法。
美國作家協會的人正在游說制定相關法律、法規(guī)和政策:在同意方面,要求在生成式人工智能中使用作家作品時獲得許可;在補償方面,為那些希望允許其作品用于生成式人工智能培訓的作家提供補償;在透明度方面,要求人工智能開發(fā)者透明披露他們用于培訓其人工智能的作品。
他們也期望,生成式 AI 的輸出使用到作家的作品時,要獲得許可并建立相應的補償機制,或者當在提示中使用作家的姓名、身份或作品標題時,也應獲得許可。此外,他們要求作者、出版商、平臺和市場標明 AI 生成的作品,并在作品很大一部分(例如超過 10-20%)由 AI 生成時進行標識。
「我們需要確保人類創(chuàng)作者得到補償,這不僅是為了創(chuàng)作者本身,而是為了確保我們的書籍和藝術繼續(xù)反映出我們的真實和想象的經驗,開拓我們的思維方式,教導我們新的思維方式,并推動我們社會的發(fā)展,而不是重復舊觀念?!乖撟骷覅f會在官方聲明中稱。
NYT VS OpenAI除了作家和藝術家,其他類型的內容創(chuàng)作者,也紛紛加入起訴 AI 公司的行列,一些新聞機構批評科技公司未經授權或補償就使用他們的內容。
比如,紐約時報正在考慮對 OpenAI 提起訴訟,稱 OpenAI 的ChatGPT使用了該報的數據進行訓練,而未經紐約時報許可。在過去的幾個月里,OpenAI 和紐約時報一直在試圖達成一項有關紐約時報內容的許可協議。但談判還未有結果,存在破裂的可能。
在最近對其服務條款政策的更改中,紐約時報明確禁止將其龐大的媒體檔案用于訓練「任何軟件程序,包括但不限于訓練機器學習或人工智能(AI)系統(tǒng)」的目的。該政策適用于紐約時報的文本內容、照片、視頻和元數據,并明確禁止網絡爬蟲訪問這些數據來訓練專有產品。
這里做一個假設,如果法院判定 OpenAI 等 AI 公司的訓練行為屬于侵權,OpenAI 可能會被迫停止使用受版權保護的數據,并在不使用受版權保護的數據的前提下,重新構建其算法,這會引發(fā)多大的麻煩?
科技公司也試圖與新聞媒體建立關系。谷歌曾試圖爭取像紐約時報、華盛頓郵報等新聞機構的支持,試圖向他們推銷 AI 工具。還有 AI 公司向新聞非營利機構提供微薄的慈善捐款。
期間,也有新聞機構不那么強硬。美聯社今年就與OpenAI達成了一項為期兩年的許可協議,同意將美聯社的內容授權給 OpenAI 使用訓練。作為回報,OpenAI 提供了美聯社訪問「OpenAI 的技術和產品專業(yè)知識」的權利。
懸在AI公司們頭上的利刃AI 公司抓取海量互聯網數據,已經導致法律問題的出現,起訴 AI 公司的人正在變得越來越多。
今年,美國一律所相繼對 OpenAI、Meta 等巨頭提起訴訟,指控他們未經同意、未經授權或未經補償地占用成千上萬名作家的作品,來訓練他們的大語言模型。行業(yè)預計訴訟規(guī)模將很龐大,因為其他內容創(chuàng)作者也有可能受此啟發(fā)采取法律行動。
其他生成 AI 公司,如 AI 圖像生成工具 Stable Diffusion 背后的 Stability AI,也惹上版權官司。Stable Diffusion 是在 LAION-5B 數據集上進行訓練的,數據集包含 58.5 億個圖像文本對,大多數都受版權保護。Getty Images 正在起訴 Stability AI,指控其未經授權在超過 1200 萬張 Getty Images 上訓練 AI 圖像生成模型。
許多藝術家和利益相關者也表示不滿,對 Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權、侵犯肖像權、不正當競爭和不正當獲利,尋求賠償和禁令。
微軟推出的編程工具 Copilot 也面臨集體訴訟。Copilot 是 GitHub 與 OpenAI 合作開發(fā)的基于人工智能的自動編程產品,主要利用 GitHub 上的公共代碼庫,在數十億行公開可用的代碼上進行了訓練,能通過簡單提示替用戶編寫代碼。開源程序員和律師指控他們從事開源軟件盜版,被告包括 GitHub、微軟及其人工智能技術合作伙伴 OpenAI。
如果要打官司,AI公司可能會援引所謂的「公平使用原則」來為其辯護,該原則允許在某些情況下無需許可即可使用作品,包括教學、批評、研究和新聞報道。問題是,AI 訓練是否適用「公平使用原則」。
幾年前,美國作家協會也曾起訴谷歌,理由是谷歌未購買其圖書館項目中收錄的書籍,當時,聯邦上訴法院判決認為,谷歌為其圖書館項目掃描了數百萬本書的數字副本是合法的「公平使用」,而非侵犯版權。關鍵在于,谷歌的數字圖書館并沒有為這些書創(chuàng)造出「重大市場替代品」,這意味著它與原作并無競爭關系。
目前,各國政府正努力將生成式 AI 納入立法范疇。歐盟也在制定一項 AI 法案,該法案將迫使公司將訓練模型信息透明化。上半年,美國作家協會已兩次訪問國會山,討論生成式 AI 和作家保護措施的問題,涉及的問題包括集體授權和版權保護、反壟斷豁免權以及 AI 標簽和透明度要求。
「除非國會采取干預措施,以確保生成式人工智能技術的開發(fā)和使用受到監(jiān)管,否則驅動原創(chuàng)表達并豐富我們文化交流的重要版權激勵將變得毫無意義。」該作家協會在官方聲明中稱。
從現有輿論看,雖然一些人擔心訓練 AI 可能會引發(fā)版權問題,但也有人認為,OpenAI 等 AI 公司不需要特別的許可協議來訓練模型,版權擔憂不利于 AI 發(fā)展進步;有人則認為,取得作者的同意是至關重要的,創(chuàng)作者應該有拒絕的權利,或者,AI 公司至少應該購買訓練數據的書籍。
技術正在做人類歷史上從未發(fā)生過的事情,AI 訓練數據方面的開源精神應該有底線嗎?未來的法律是掣肘還是保護?如何平衡 AI 的發(fā)展與尊重人類創(chuàng)作權益,可能是和「通用人工智能何時到來」同樣重要的問題。
頭圖來源:Unite.AI
關鍵詞:
責任編輯:為了訓練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經許可,從互
【每天有將近兩百華人從泰國被販賣到緬甸!泰警方公布數據觸目驚心】事
【走進區(qū)域看發(fā)展】京津冀產業(yè)協同發(fā)展系列圖解③:七個關鍵詞看發(fā)展未
根據美國夏威夷州毛伊縣政府發(fā)布的最新報告,截至當地時間8月19日上午
為了訓練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經許可,從互
2023級的高考生們也即將走進校園中,準備迎接屬于他們的大學美好時光。
真相大白?哈登公布內幕,莫狗是真的狗啊 ,莫狗,湖人,快船隊,76人隊,
政府統(tǒng)計處公布,7月綜合消費物價指數按年升1 8%,較6月的1 9%略低。剔
本文共5000字,閱讀約需8分鐘來源:外灘教育一份名校offer,沉甸甸但也
研究表明,野驢的最快奔跑速度約為70公里 小時,憑借這一速度,野驢在
今天凌晨,受短時強降雨影響,四川涼山州金陽縣燈廠村突發(fā)山洪,一工棚
中新網8月21日電 北京市人民政府副市長司馬紅在21日舉行的新聞發(fā)布
上證報中國證券網訊據工業(yè)和信息化部消息,1—7月份,信息通信行業(yè)整體
8月18日,棗園街道唐都花園社區(qū)“鄰里格”志愿者服務隊又添“新朋友”
中國青年報客戶端訊(中青報·中青網見習記者聶思媛)作為中國近代工業(yè)的
【每天有將近兩百華人從泰國被販賣到緬甸!泰警方公布數據觸目驚心】事
為充分發(fā)揮黨建引領作用,扎實推進投資促進“六大行動”,助推三亞經濟
中國網財經8月22日訊(記者劉小菲)雙林股份昨日晚間發(fā)布2023年半年報。
視頻加載中 益陽日報全媒體訊(通訊員胡衛(wèi)紅劉治安謝斌徐珊)8月20日
又逢一年“七夕”至作為中國傳統(tǒng)節(jié)日中最具浪漫色彩的節(jié)日在海南這座充
“富養(yǎng)女兒”這四個字,被知名主持人李湘展現的淋漓盡致。李湘和王岳倫
蘇滄桑的文字唯美靈動,兼具大氣和柔美,被稱為散文中的“天籟之音”,
【市民薅禿商場七夕觀賞玫瑰花,商場回應:現場只剩一個空架子,想補也
【走進區(qū)域看發(fā)展】京津冀產業(yè)協同發(fā)展系列圖解③:七個關鍵詞看發(fā)展未
挖貝網2023年8月21日,樂眾信息(837743)近日發(fā)布2023年半年度報,報告
8月22日,有網友在社交平臺分享出偶遇李承鉉張智霖聚會畫面,而令人驚
1-7月印花稅2679億元,同比下降8 3%
8月22日周二共有1只新股發(fā)行,民生健康(創(chuàng))(深圳創(chuàng)業(yè)板 申購代碼:
※本文不含劇透文丨阿蒙毫無疑問,《博德之門3》絕對是今年口碑以及商
視頻制作∣江西日報全媒體記者徐黎明實習生徐子嘉江西新聞客戶端訊(江
8月22日,美國夏威夷毛伊島發(fā)生大火,火勢猛烈,導致大量房屋倒塌、人
很多搭配看起來很簡單,只有嘗試了才知道適不適合自己。一雙好穿好駕馭
根據內部消息透露,iPhone15系列已經開始在富士康進行組裝了,發(fā)布會應
8月22日消息,北京大興的張先生在遛彎時,發(fā)現一只一米長巨型蜥蜴。張
作者:泰羅,編輯:小市妹破產潮,正在狂卷美利堅!根據財聯社報道,今
新華社權威快報|2022年我國居民健康素養(yǎng)水平達到27 78%
根據美國夏威夷州毛伊縣政府發(fā)布的最新報告,截至當地時間8月19日上午
您好,來為大家解答以上問題。魔劍阿波菲斯怎么獲得,地下城與勇士魔劍
商務部部長助理陳春江8月21日在國新辦發(fā)布會上表示,商務部將推動出
海洋捕撈,指在海洋中對各種天然水生動植物的捕撈活動;海洋捕撈業(yè),則
從北京一路向西北進發(fā),756公里的行程不算短,但是有了對遠方的向往、
本書呈現的近千幅服飾文物圖片,是從作者收集的二十余萬張珍貴圖片中遴
1、點擊下方的系統(tǒng)設置按鈕圖標。2、然后,我們在系統(tǒng)設置頁面中點擊查
東方甄選(01797)早盤上漲3 55%,現報39 35港元,成交額3 734億港元。
創(chuàng)研股份2023年上半年凈利1853 92萬同比增加63 14%2023 8 2119:08:07挖
韓國SK集團旗下電池制造公司SKOn與韓國蓄電池制造商ECOPROBM于8月18日
大模型的火爆,推動算力板塊走出了結構性的牛市。 作為算力板塊的龍頭
8月起將重算補發(fā)!上海部分退休人員,除了將重算補發(fā)養(yǎng)老金,還可以補
記者從水利部長江水利委員會了解到,根據水文氣象預報,8月21至22日,
據悉,蘋果公司可能會在今年9月發(fā)布全新的iPhone15系列手機。最近,適
華特達因(SZ000915,最新價:31 21元)發(fā)布公告稱,2023年8月21日8:00
消息面上,貝瑞基因公告,公司控股股東高揚及一致行動人侯穎,因質押到
8月21日,湯姆貓(300459)融資買入1618 02萬元,融資償還2264 1萬元,
金投網提供彩金群英會金幣價格今天多少一克(2023年08月22日),彩金群
鄂股半年報丨華燦光電上半年虧損3 64億元,逐鹿MLED賽道尋求增長點,鄂
1、哎,我今天剛看完,好感人,我都哭了,我也很無奈,為什么滿月要選
據央視新聞消息,當地時間22日,日本政府舉行相關閣僚會議后宣布,將從
今年以來,為聚焦“我為群眾辦實事”實踐活動,東方汽輪機先后開展6場
《游石林》商洛市小學三一班王藝垚暑假期間,我們全家去云南省昆明市石
Redmi第一款24GB+1TB手機首銷!配置超越電腦:大內存、大存儲有啥好處?
人民幣兌美元中間價報7 1987調升19個基點
8月21日,富臨精工(300432)融資買入238 16萬元,融資償還431 04萬元
1試題內容如圖,延長AD至點E,使DE=DA,連接EP、EQ,設CP與BA的交點
日本央行今年以創(chuàng)紀錄的速度購買國債,這可能是促使該行近期允許收益率
鵬華基金擬出資5000萬元自購基金,同花順,自購基金,公募基金,鵬華基金管
一字并肩王是什么爵位,權力如何?歷史上真的有這號人物嗎?,在古代君
瑞馳新能源汽車最近發(fā)布了其全新平臺上的電動物流車——EC75車型,并有
這次盒馬發(fā)起的“移山價”大戰(zhàn)中,一款名為“無抗鮮雞蛋30枚”的產品銷
諸多的對于安宮牛黃丸北京同仁堂一盒幾丸,安宮牛黃丸北京同仁堂這個問
珠江商報訊記者陳敏奇通訊員陳源清報道:8月20日,“順控杯”第十一屆
自2014年蘋果發(fā)布AppleWatch后,智能手表這個概念很快就被市場接受,且
謂我不愧君,青鳥明丹心。--出自:李白《經亂離后天恩流夜郎憶舊游書
今日(8月21日),A股三大指數全天弱勢震蕩,上證指數尾盤跌破3100點關
“七夕今宵看碧霄,牽牛織女渡河橋”,牛郎織女的愛情故事讓“七夕”成
(許墨生氣了!后果很嚴重?。┳詮哪愫驮S墨同居后,每天在公司都忙里忙
8月22日,先聲藥業(yè)集團有限公司(先聲藥業(yè),2096 HK)2023年中期業(yè)績發(fā)
很多小伙伴升級了Win11之后不知道什么修改名字,針對這一問題,小編給
iPhone充電速度真是越來越快了,說實話真的不怕嚇到咱們廣大果粉嗎?iP
8月10日,由中鐵四局集團負責承建的雄商高鐵站前11標段,采用國內最大跨
【2023年8月20日,上海】8月20日,蔡司在上海舉辦“AHeartforScience啟
作為中國近代工業(yè)的重要發(fā)祥地,常州因運河而生,也因運河而興。流淌了
周斌是龍源云南公司馬頭村光伏項目部副經理,每天有忙不完的工作——除
金融投資報記者注意到,這也是自6月20日LPR兩個期限報價同步下降10個基
中原油城正向“中原氫城”的目標換道轉型從黃河故道上的平原農區(qū)到一度
為進一步加強施工圍擋管理,打造整潔優(yōu)美、文明有序的城市環(huán)境,金水源
iiMediaResearch(艾媒咨詢)數據顯示,在2022年中國白領群體使用防曬
太平人壽重疾險價格不是固定的,要根據選擇的險種、保險期限、保額、被
現場向企業(yè)發(fā)送了“行政復議便企服務卡”“行政復議知識問答”等宣傳資
8月21日,安徽醫(yī)科大學衛(wèi)生管理學院“醫(yī)心潤苗助鄉(xiāng)村”暑期社會實踐團
智通財經APP獲悉,8月21日,為規(guī)范企業(yè)數據資源相關會計處理,強化相關
8月21日,山東省社會信用中心發(fā)布《山東省失信行為糾正后的信用信息修
立足本土、提升技藝、延長鏈條,在完善產業(yè)體系上下功夫,在培養(yǎng)產品品
中海物業(yè)自身也有參與過一些這種項目,從長期回報率來看,部分項目是可
8月22日,國務院新聞辦舉行第二十三屆中國國際投資貿易洽談會新聞發(fā)布
8月15日,在位于福州市閩侯縣的10kV荊甘線03-1201-10至03-1201-11之間
厄瓜多爾20日舉行總統(tǒng)和國民代表大會(議會)選舉,選出總統(tǒng)、副總統(tǒng)以
夢見坐馬車通常意味著追求古老、經典而高貴的事物。這個夢境可能代表你
8月22日是七夕節(jié)。每年的農歷七月初七,不僅是神話故事中“牛郎織女”
□孫捷莫言女子不禁風,熱血丹心烈士同。每報邊疆尋釁事,此身恨不作彎
深水海納(300961 SZ)近日發(fā)布2023年半年度報告。今年上半年,深水海納
中新網舟山8月22日電(謝盼盼潘恩玲)當海洋剪紙遇上民宿,會擦出怎樣的
為切實保障農民群眾切身利益,進一步盤活農村集體經營性土地資產,助力
大家好我是龍骨十字,今天給大家?guī)韺嵱霉ヂ?,本期呢我們會分上下部?/p>
無悔華夏因緣巧合拼圖怎么過?因緣巧合拼圖是七夕的活動玩法,大家要完