AI“模型崩潰”風(fēng)險(xiǎn)需警惕
“模型崩潰”是今年7月發(fā)表在英國(guó)《自然》雜志上的一篇研究論文指出的問(wèn)題。它是指用AI生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型,可能會(huì)嚴(yán)重“污染”它們的輸出。
多家外媒報(bào)道稱,這不僅是數(shù)據(jù)科學(xué)家需要擔(dān)心的技術(shù)問(wèn)題,如果不加控制,“模型崩潰”可能會(huì)對(duì)企業(yè)、技術(shù)和整個(gè)數(shù)字生態(tài)系統(tǒng)產(chǎn)生深遠(yuǎn)影響。天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室負(fù)責(zé)人熊德意教授在接受記者采訪時(shí),從專業(yè)角度對(duì)“模型崩潰”進(jìn)行了解讀。

圖片來(lái)源:美國(guó)《The Week》
“模型崩潰”是怎么回事
大多數(shù)AI模型,比如GPT-4,都是通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練的,其中大部分?jǐn)?shù)據(jù)來(lái)自互聯(lián)網(wǎng)。最初,這些數(shù)據(jù)是由人類生成的,反映了人類語(yǔ)言、行為和文化的多樣性和復(fù)雜性。AI從這些數(shù)據(jù)中學(xué)習(xí),并用它來(lái)生成新內(nèi)容。
然而,當(dāng)AI在網(wǎng)絡(luò)上搜索新數(shù)據(jù)來(lái)訓(xùn)練下一代模型時(shí),AI很可能會(huì)吸收一些自己生成的內(nèi)容,從而形成反饋循環(huán),其中一個(gè)AI的輸出成為另一個(gè)AI的輸入。當(dāng)生成式AI用自己的內(nèi)容進(jìn)行訓(xùn)練時(shí),其輸出也會(huì)偏離現(xiàn)實(shí)。這就像多次復(fù)制一份文件,每個(gè)版本都會(huì)丟失一些原始細(xì)節(jié),最終得到的是一個(gè)模糊的、不那么準(zhǔn)確的結(jié)果。
美國(guó)《紐約時(shí)報(bào)》報(bào)道稱,當(dāng)AI脫離人類輸入內(nèi)容時(shí),其輸出的質(zhì)量和多樣性會(huì)下降。
熊德意解讀稱:“真實(shí)的人類語(yǔ)言數(shù)據(jù),其分布通常符合齊普夫定律,即詞頻與詞的排序成反比關(guān)系。齊普夫定律揭示了人類語(yǔ)言數(shù)據(jù)存在長(zhǎng)尾現(xiàn)象,即存在大量的低頻且多樣化的內(nèi)容。”
熊德意進(jìn)一步解釋道,由于存在近似采樣等錯(cuò)誤,在模型生成的數(shù)據(jù)中,真實(shí)分布的長(zhǎng)尾現(xiàn)象逐漸消失,模型生成數(shù)據(jù)的分布逐漸收斂至與真實(shí)分布不一致的分布,多樣性降低,導(dǎo)致“模型崩潰”。
AI自我“蠶食”是壞事嗎
對(duì)于“模型崩潰”,美國(guó)《The Week》雜志近日刊文評(píng)論稱,這意味著AI正在自我“蠶食”。
熊德意認(rèn)為,伴隨著這一現(xiàn)象的出現(xiàn),模型生成數(shù)據(jù)在后續(xù)模型迭代訓(xùn)練中占比越高,后續(xù)模型丟失真實(shí)數(shù)據(jù)的信息就會(huì)越多,模型訓(xùn)練就更加困難。
乍一看,“模型崩潰”在當(dāng)前似乎還是一個(gè)僅需要AI研究人員在實(shí)驗(yàn)室中擔(dān)心的小眾問(wèn)題,但其影響將是深遠(yuǎn)而長(zhǎng)久的。
美國(guó)《大西洋月刊》刊文指出,為了開發(fā)更先進(jìn)的AI產(chǎn)品,科技巨頭可能不得不向程序提供合成數(shù)據(jù),即AI系統(tǒng)生成的模擬數(shù)據(jù)。然而,由于一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內(nèi)容,這些會(huì)傳遞到AI模型的下一版本中。
美國(guó)《福布斯》雜志報(bào)道稱,“模型崩潰”還可能會(huì)加劇AI中的偏見和不平等問(wèn)題。
不過(guò),這并不意味著所有合成數(shù)據(jù)都是不好的?!都~約時(shí)報(bào)》表示,在某些情況下,合成數(shù)據(jù)可以幫助AI學(xué)習(xí)。例如,當(dāng)使用大型AI模型的輸出訓(xùn)練較小的模型時(shí),或者當(dāng)可以驗(yàn)證正確答案時(shí),比如數(shù)學(xué)問(wèn)題的解決方案或國(guó)際象棋、圍棋等游戲的最佳策略。
AI正在占領(lǐng)互聯(lián)網(wǎng)嗎
訓(xùn)練新AI模型的問(wèn)題可能凸顯出一個(gè)更大的挑戰(zhàn)?!犊茖W(xué)美國(guó)人》雜志表示,AI內(nèi)容正在占領(lǐng)互聯(lián)網(wǎng),大型語(yǔ)言模型生成的文本正充斥著數(shù)百個(gè)網(wǎng)站。與人工創(chuàng)作的內(nèi)容相比,AI內(nèi)容的創(chuàng)作速度更快,數(shù)量也更大。
OpenAI首席執(zhí)行官薩姆·奧特曼今年2月曾表示,該公司每天生成約1000億個(gè)單詞,相當(dāng)于100萬(wàn)本小說(shuō)的文本,其中有一大部分會(huì)流入互聯(lián)網(wǎng)。
互聯(lián)網(wǎng)上大量的AI內(nèi)容,包括機(jī)器人發(fā)布的推文、荒謬的圖片和虛假評(píng)論,引發(fā)了一種更為消極的觀念。《福布斯》雜志稱,“死亡互聯(lián)網(wǎng)理論”認(rèn)為,互聯(lián)網(wǎng)上的大部分流量、帖子和用戶都已被機(jī)器人和AI生成的內(nèi)容所取代,人類不再能決定互聯(lián)網(wǎng)的方向。這一觀念最初只在網(wǎng)絡(luò)論壇上流傳,但最近卻獲得了更多關(guān)注。
幸運(yùn)的是,專家們表示,“死亡互聯(lián)網(wǎng)理論”尚未成為現(xiàn)實(shí)?!陡2妓埂冯s志指出,絕大多數(shù)廣為流傳的帖子,包括一些深刻的觀點(diǎn)、犀利的語(yǔ)言、敏銳的觀察,以及在新背景下對(duì)新生事物的定義等內(nèi)容,都不是AI生成的。
不過(guò),熊德意仍強(qiáng)調(diào):“隨著大模型的廣泛應(yīng)用,AI合成數(shù)據(jù)在互聯(lián)網(wǎng)數(shù)據(jù)中的占比可能會(huì)越來(lái)越高,大量低質(zhì)量的AI合成數(shù)據(jù),不僅會(huì)使后續(xù)采用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型出現(xiàn)一定程度的‘模型崩潰’,而且也會(huì)對(duì)社會(huì)形成負(fù)面影響,比如生成的錯(cuò)誤信息對(duì)部分人群形成誤導(dǎo)等。因此,AI生成內(nèi)容不僅是一個(gè)技術(shù)問(wèn)題,同時(shí)也是社會(huì)問(wèn)題,需要從安全治理與AI技術(shù)雙重角度進(jìn)行有效應(yīng)對(duì)。”
關(guān)鍵詞:
責(zé)任編輯:孫知兵
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與太平洋財(cái)富網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
如有問(wèn)題,請(qǐng)聯(lián)系我們!
- AI“模型崩潰”風(fēng)險(xiǎn)需警惕2024-09-25
- 國(guó)家發(fā)展改革委鼓勵(lì)中資企業(yè)利用香港開展跨2024-09-25
- 綠水青山相映美 金山銀山幸福長(zhǎng)——西藏著2024-09-25
- 第三屆亞洲國(guó)際水周在北京開幕2024-09-25
- 世界計(jì)算大會(huì)開幕2024-09-25
- 寧夏“真金白銀”補(bǔ)貼支持消費(fèi)品以舊換新2024-09-25
- 重慶“母城”渝中區(qū)施策構(gòu)建樓宇經(jīng)濟(jì)發(fā)展體2024-09-25
- “十一”假期哈鐵增開省內(nèi)58趟旅客列車2024-09-25
- 一箭八星“太空拼車”!捷龍三號(hào)火箭海上成2024-09-25
- 101個(gè)洞穴!廣東西江爛柯山發(fā)現(xiàn)中華穿山甲2024-09-25
- 新華全媒+|2024世界計(jì)算大會(huì)開幕 看“計(jì)2024-09-25
- 智造世界 創(chuàng)造美好——2024世界制造業(yè)大會(huì)2024-09-25
- 吉林品牌搭“跨境之船”擁抱全球市場(chǎng)2024-09-25
- “穿越”千年 《唯有定州》古典園林行浸式2024-09-25
- 安徽優(yōu)質(zhì)醫(yī)療資源有序擴(kuò)容 9個(gè)國(guó)家區(qū)域2024-09-25
- 我國(guó)綠色智能計(jì)算產(chǎn)業(yè)“井噴”發(fā)展2024-09-25
- 國(guó)酒華夏實(shí)業(yè):靠譜服務(wù),為品牌鑄就輝煌!2024-09-25
- 中國(guó)深海載人潛水器“蛟龍”號(hào)首次訪港2024-09-25
- 為什么秋冬季心腦血管疾病易發(fā)?如何預(yù)防和2024-09-25
- 太原至新加坡航線開航2024-09-25
- 西藏殘疾人登文藝舞臺(tái)展風(fēng)姿2024-09-25
- 首屆國(guó)際乳業(yè)創(chuàng)新大會(huì)在呼和浩特召開2024-09-25
- 青春華章|聽天津·聽障兒童唱響愛的旋律2024-09-25
- 國(guó)慶出境游火熱啟動(dòng) 機(jī)酒預(yù)訂大幅超去年2024-09-25
- 黃河羊曲水電站三臺(tái)機(jī)組轉(zhuǎn)子全部吊裝完成2024-09-25
- 53天!全網(wǎng)獨(dú)家的嫦娥六號(hào)探月全記錄!2024-09-25
- 一眼“穿越”千年 《唯有定州》古典園林行2024-09-25
- 中國(guó)各地自籌資金超400億元投入建筑和市政2024-09-25
- 廣州人民藝術(shù)中心面向公眾開放2024-09-25
- 多項(xiàng)重磅金融政策將推出 進(jìn)一步支持經(jīng)濟(jì)穩(wěn)2024-09-25
精彩推薦
- 青春華章|聽天津·聽障兒童唱響愛的旋律
- 國(guó)慶出境游火熱啟動(dòng) 機(jī)酒預(yù)訂大幅超去年
- 黃河羊曲水電站三臺(tái)機(jī)組轉(zhuǎn)子全部吊裝完成
- 53天!全網(wǎng)獨(dú)家的嫦娥六號(hào)探月全記錄!
- 一眼“穿越”千年 《唯有定州》古典園...
- 湖北農(nóng)人慶豐收 應(yīng)城稻花香里說(shuō)豐年
- 世遺泉州北京行文旅推介活動(dòng)在京舉行 ...
- 2024“拉美和加勒比音樂(lè)節(jié)”在京開幕 ...
- 2024年皮劃艇巡回賽暨U系列聯(lián)賽在河北舉行
- 柬埔寨湖南總商會(huì)名譽(yù)會(huì)長(zhǎng)唐彬:愿為家...
- 北京文化論壇現(xiàn)場(chǎng) 影視大咖悉數(shù)到場(chǎng)
- 鄭曉龍談《甄嬛傳》走紅國(guó)際:以思想的...
- 于和偉談“接著奏樂(lè)接著舞”:流量沒(méi)有...
- 張頌文:演員是公眾人物 要更嚴(yán)格地約...
- 胡明軒壓哨絕殺西甲勁旅 主帥郭士強(qiáng):...

中國(guó)互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心