首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> IT >> 正文

AI產(chǎn)業(yè)的灰色暗面:OpenAI、谷歌、META如何搞訓(xùn)練語(yǔ)料

2024年4月8日 15:48  財(cái)聯(lián)社  

種種跡象顯示,目前站在全世界AI領(lǐng)域潮頭浪尖的這些公司,早在幾年前就已經(jīng)陷入對(duì)訓(xùn)練語(yǔ)料的“絕望”追逐中——為此他們不惜修改政策條款、無(wú)視互聯(lián)網(wǎng)信息的使用規(guī)則,只為了讓自家的產(chǎn)品更加先進(jìn)一些。

《紐約時(shí)報(bào)》在本周末刊發(fā)的調(diào)查報(bào)道中,揭露了OpenAI、谷歌、Meta等公司為了獲取訓(xùn)練語(yǔ)料所采取的一些“走捷徑”措施,同時(shí)也展現(xiàn)了整個(gè)行業(yè)迫在眉睫的困境。

美國(guó)科技巨頭各走“捷徑”

2021年末,正在訓(xùn)練GPT-4的OpenAI遇到了一個(gè)棘手的問(wèn)題,公司已經(jīng)耗盡了互聯(lián)網(wǎng)上所有可靠的英文文本資源,而他們需要更多、更大規(guī)模的數(shù)據(jù)來(lái)訓(xùn)練更強(qiáng)大的模型。

為了處理這個(gè)問(wèn)題,OpenAI的Whisper語(yǔ)音識(shí)別工具誕生了——用來(lái)轉(zhuǎn)錄谷歌旗下視頻平臺(tái)Youtube的視頻音頻,生成大量的對(duì)話文本。

報(bào)道稱,包括OpenAI總裁布洛克曼在內(nèi)的團(tuán)隊(duì)總共轉(zhuǎn)錄了超過(guò)一百萬(wàn)小時(shí)的Youtube視頻。隨后這些資料被輸入到GPT-4系統(tǒng)中,并成為聊天機(jī)器人ChatGPT的基礎(chǔ)。

根據(jù)谷歌的政策,禁止用戶將平臺(tái)上的視頻用于“獨(dú)立”應(yīng)用,同時(shí)禁止通過(guò)任何自動(dòng)化手段(爬蟲(chóng)等)訪問(wèn)其視頻。

有趣的是,在OpenAI偷偷扒Youtube視頻時(shí),谷歌也在轉(zhuǎn)錄自家流媒體平臺(tái)的內(nèi)容訓(xùn)練大模型——同樣冒著侵犯版權(quán)的風(fēng)險(xiǎn)。正因如此,雖然有谷歌員工知道OpenAI在這么干,也沒(méi)有出手阻止。因?yàn)橐坏┕雀鑼?duì)OpenAI提出抗議,也有可能“引火燒身”到自己身上。

對(duì)于是否采用Youtube視頻訓(xùn)練AI的詢問(wèn),OpenAI方面回應(yīng)稱,他們使用了“多個(gè)來(lái)源”的數(shù)據(jù)。谷歌發(fā)言人Matt Bryant則表示,公司對(duì)OpenAI的行為一無(wú)所知,且禁止任何人“未經(jīng)授權(quán)抓取或下載Youtube視頻”。不過(guò)Bryant也表示,公司只會(huì)在有明確法律、技術(shù)依據(jù)時(shí)才會(huì)采取行動(dòng)。

谷歌自家的條款,則允許平臺(tái)使用這些視頻開(kāi)發(fā)視頻平臺(tái)的新功能,但這樣的措辭是否意味著谷歌能用這些資料開(kāi)發(fā)商用AI,也存在不小的疑問(wèn)。

與此同時(shí),Meta的內(nèi)部會(huì)議紀(jì)要顯示,工程師和產(chǎn)品經(jīng)理討論了購(gòu)買美國(guó)大型出版商Simon &Schuster以獲取長(zhǎng)文本資料的計(jì)劃,另外他們還討論了從互聯(lián)網(wǎng)上收集受版權(quán)保護(hù)的內(nèi)容,并表示“與出版商、藝術(shù)家、音樂(lè)家和新聞行業(yè)談判授權(quán)需要的時(shí)間太多了”。

據(jù)悉,有Meta的高管表示,OpenAI似乎正在使用受版權(quán)保護(hù)的材料,所以公司也可以遵循這個(gè)“市場(chǎng)先例”

更顯性的變化是,谷歌去年修改了服務(wù)條款。根據(jù)內(nèi)部資料顯示,推動(dòng)隱私政策變化的動(dòng)機(jī)之一,包括允許谷歌利用公開(kāi)的谷歌文檔、谷歌地圖上的餐廳評(píng)論,以及更多在線資料開(kāi)發(fā)AI產(chǎn)品。最終谷歌趕在美國(guó)國(guó)慶節(jié)(7月4日)放假前的7月1日發(fā)布了修改后的隱私條款,將“使用公開(kāi)信息訓(xùn)練AI模型”首次納入其中。

Bryant回應(yīng)稱,公司不會(huì)在沒(méi)有用戶“明確許可”的情況下使用他們的谷歌文檔來(lái)訓(xùn)練AI,這里指的是自愿參與的實(shí)驗(yàn)性功能體驗(yàn)計(jì)劃。

即便如此還是不夠

正因?yàn)檫@些操作,近些年來(lái)伴隨著人們對(duì)AI能力的驚嘆,越來(lái)越多的版權(quán)方也開(kāi)始意識(shí)到自己的數(shù)據(jù)被偷偷拿走訓(xùn)練AI了。包括《紐約時(shí)報(bào)》、一些電影制作人和作家已經(jīng)將這些科技公司告上法庭,美國(guó)著作權(quán)局也正在制定版權(quán)法在AI時(shí)代的適用指南。

問(wèn)題在于,即便一些作家、制片人將科技公司的行為稱為“美國(guó)史上最大盜竊案”,科技公司用來(lái)發(fā)展下一代AI的數(shù)據(jù)依然還是不夠。

2020年初,約翰霍普金斯大學(xué)的理論物理學(xué)家(現(xiàn)Anthropic首席科學(xué)官)Jared Kaplan發(fā)布了一篇論文,明確表示訓(xùn)練大語(yǔ)言模型用的數(shù)據(jù)越多,表現(xiàn)就會(huì)越好。自那以后,“規(guī)模就是一切”成為了人工智能行業(yè)的信條。

2020年11月發(fā)布的GPT-3包含約3000億個(gè)Token的訓(xùn)練數(shù)據(jù)。2022年,谷歌DeepMind對(duì)400個(gè)人工智能模型進(jìn)行測(cè)試,其中表現(xiàn)最好的模型(之一),一個(gè)名為Chinchilla的模型用了1.4萬(wàn)億個(gè)Token的數(shù)據(jù)。到2023年,中國(guó)科學(xué)家開(kāi)發(fā)的Skywork大模型在訓(xùn)練中使用了3.2萬(wàn)億個(gè)英文和中文Token,谷歌PaLM 2的訓(xùn)練數(shù)據(jù)量則達(dá)到3.6萬(wàn)億個(gè)Token。

研究機(jī)構(gòu)Epoch直白地表示,現(xiàn)在科技公司使用數(shù)據(jù)的速度已經(jīng)超過(guò)數(shù)據(jù)生產(chǎn)的速度,這些公司最快會(huì)在2026年就耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。

面對(duì)這樣的問(wèn)題,奧爾特曼已經(jīng)提出了一種解決方法:像OpenAI這樣的公司,最終會(huì)轉(zhuǎn)向使用AI生成的數(shù)據(jù)(也被稱為合成數(shù)據(jù))來(lái)訓(xùn)練AI。這樣開(kāi)發(fā)人員在創(chuàng)建愈發(fā)強(qiáng)大的技術(shù)同時(shí),也會(huì)減少對(duì)受版權(quán)保護(hù)數(shù)據(jù)的依賴。

目前OpenAI和一系列機(jī)構(gòu)也正在研究使用兩個(gè)不同的模型,能否共同生成更有用、更可靠的合成數(shù)據(jù)——一個(gè)系統(tǒng)產(chǎn)生數(shù)據(jù),另一個(gè)系統(tǒng)對(duì)信息進(jìn)行評(píng)判。當(dāng)然,這種技術(shù)路徑是否可行,目前仍存爭(zhēng)議。

前 OpenAI 研究員Jeff Clune認(rèn)為,這些AI系統(tǒng)所需的數(shù)據(jù)就像是穿越叢林的路徑,如果這些公司只是在合成數(shù)據(jù)上訓(xùn)練,AI可能會(huì)在叢林里迷失。

編 輯:高靖宇
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
陳忠岳:中國(guó)聯(lián)通正在開(kāi)展6G技術(shù)指標(biāo)制定等工作
精彩專題
CES 2024國(guó)際消費(fèi)電子展
2023年信息通信產(chǎn)業(yè)盤點(diǎn)暨頒獎(jiǎng)禮
飛象網(wǎng)2023年手機(jī)評(píng)選
第24屆中國(guó)國(guó)際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像