谷歌:大模型不僅有涌現(xiàn)能力,訓(xùn)練時(shí)間長(zhǎng)了還有「領(lǐng)悟」能力
機(jī)器之心報(bào)道
編輯:陳萍、小舟、梓文
2021 年,研究人員在訓(xùn)練一系列微型模型時(shí)取得了一個(gè)驚人的發(fā)現(xiàn),即模型經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練后,會(huì)有一個(gè)變化,從開始只會(huì)「記憶訓(xùn)練數(shù)據(jù)」,轉(zhuǎn)變?yōu)閷?duì)沒見過的數(shù)據(jù)也表現(xiàn)出很強(qiáng)的泛化能力。
(資料圖片僅供參考)
這種現(xiàn)象被稱為「領(lǐng)悟(grokking)」,如下圖所示,模型在長(zhǎng)時(shí)間擬合訓(xùn)練數(shù)據(jù)后,「領(lǐng)悟」現(xiàn)象會(huì)突然出現(xiàn)。
既然微型模型有這種特性,那么更復(fù)雜一點(diǎn)的模型在經(jīng)過更長(zhǎng)時(shí)間的訓(xùn)練后,是否也會(huì)突然出現(xiàn)「領(lǐng)悟」現(xiàn)象?最近大型語(yǔ)言模型(LLM)發(fā)展迅猛,它們看起來對(duì)世界有著豐富的理解力,很多人認(rèn)為 LLM 只是在重復(fù)所記憶的訓(xùn)練內(nèi)容,這一說法正確性如何,我們?cè)撊绾闻袛?LLM 是輸出記憶內(nèi)容,還是對(duì)輸入數(shù)據(jù)進(jìn)行了很好的泛化?
為了更好的了解這一問題,本文來自谷歌的研究者撰寫了一篇博客,試圖弄清楚大模型突然出現(xiàn)「領(lǐng)悟」現(xiàn)象的真正原因。
本文先從微型模型的訓(xùn)練動(dòng)態(tài)開始,他們?cè)O(shè)計(jì)了一個(gè)具有 24 個(gè)神經(jīng)元的單層 MLP,訓(xùn)練它們學(xué)會(huì)做模加法(modular addition)任務(wù),我們只需知道這個(gè)任務(wù)的輸出是周期性的,其形式為 (a + b) mod n。
MLP 模型權(quán)重如下圖所示,研究發(fā)現(xiàn)模型的權(quán)重最初非常嘈雜,但隨著時(shí)間的增加,開始表現(xiàn)出周期性。
如果將單個(gè)神經(jīng)元的權(quán)重可視化,這種周期性變化更加明顯:
別小看周期性,權(quán)重的周期性表明該模型正在學(xué)習(xí)某種數(shù)學(xué)結(jié)構(gòu),這也是模型從記憶數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂蟹夯芰Φ年P(guān)鍵。很多人對(duì)這一轉(zhuǎn)變感到迷惑,為什么模型會(huì)從記憶數(shù)據(jù)模式轉(zhuǎn)變?yōu)榉夯瘮?shù)據(jù)模式。
用 01 序列進(jìn)行實(shí)驗(yàn)
為了判斷模型是在泛化還是記憶,該研究訓(xùn)練模型預(yù)測(cè) 30 個(gè) 1 和 0 隨機(jī)序列的前三位數(shù)字中是否有奇數(shù)個(gè) 1。例如000110010110001010111001001011 為 0,而010110010110001010111001001011 為 1。這基本就是一個(gè)稍微棘手的 XOR 運(yùn)算問題,帶有一些干擾噪聲。如果模型在泛化,那么應(yīng)該只使用序列的前三位數(shù)字;而如果模型正在記憶訓(xùn)練數(shù)據(jù),那么它還會(huì)使用后續(xù)數(shù)字。
該研究使用的模型是一個(gè)單層 MLP,在 1200 個(gè)序列的固定批上進(jìn)行訓(xùn)練。起初,只有訓(xùn)練準(zhǔn)確率有所提高,即模型會(huì)記住訓(xùn)練數(shù)據(jù)。與模運(yùn)算一樣,測(cè)試準(zhǔn)確率本質(zhì)上是隨機(jī)的,隨著模型學(xué)會(huì)通用解決方案而急劇上升。
通過 01 序列問題這個(gè)簡(jiǎn)單的示例,我們可以更容易地理解為什么會(huì)發(fā)生這種情況。原因就是模型在訓(xùn)練期間會(huì)做兩件事:最小化損失 和權(quán)重衰減。在模型泛化之前,訓(xùn)練損失實(shí)際上會(huì)略有增加,因?yàn)樗粨Q了與輸出正確標(biāo)簽相關(guān)的損失,以獲得較低的權(quán)重。
測(cè)試損失的急劇下降使得模型看起來像是突然泛化,但如果查看模型在訓(xùn)練過程中的權(quán)重,大多數(shù)模型都會(huì)在兩個(gè)解之間平滑地插值。當(dāng)與后續(xù)分散注意力的數(shù)字相連的最后一個(gè)權(quán)重通過權(quán)重衰減被修剪時(shí),快速泛化就會(huì)發(fā)生。
「領(lǐng)悟」現(xiàn)象是什么時(shí)候發(fā)生的?
值得注意的是,「領(lǐng)悟(grokking)」是一種偶然現(xiàn)象 —— 如果模型大小、權(quán)重衰減、數(shù)據(jù)大小和其他超參數(shù)不合適,「領(lǐng)悟」現(xiàn)象就會(huì)消失。如果權(quán)重衰減太少,模型就會(huì)對(duì)訓(xùn)練數(shù)據(jù)過渡擬合。如果權(quán)重衰減過多,模型將無(wú)法學(xué)到任何東西。
下面,該研究使用不同的超參數(shù)針對(duì) 1 和 0 任務(wù)訓(xùn)練了 1000 多個(gè)模型。訓(xùn)練過程充滿噪音,因此針對(duì)每組超參數(shù)訓(xùn)練了九個(gè)模型。表明只有兩類模型出現(xiàn)「領(lǐng)悟」現(xiàn)象,藍(lán)色和黃色。
具有五個(gè)神經(jīng)元的模塊化加法
模加法 a+b mod 67 是周期性的,如果總和超過 67,則答案會(huì)產(chǎn)生環(huán)繞現(xiàn)象,可以用一個(gè)圓來表示。為了簡(jiǎn)化問題,該研究構(gòu)建了一個(gè)嵌入矩陣,使用 cos? 和 sin? 將 a 和 b 放置在圓上,表示為如下形式。
結(jié)果表明,模型僅用 5 個(gè)神經(jīng)元就可以完美準(zhǔn)確地找到解決方案:
觀察經(jīng)過訓(xùn)練的參數(shù),研究團(tuán)隊(duì)發(fā)現(xiàn)所有神經(jīng)元都收斂到大致相等的范數(shù)。如果直接繪制它們的 cos? 和 sin? 分量,它們基本上均勻分布在一個(gè)圓上。
接下來是
,它是從頭開始訓(xùn)練的,沒有內(nèi)置周期性,這個(gè)模型有很多不同的頻率。
該研究使用離散傅立葉變換 (DFT) 分離出頻率。就像在 1 和 0 任務(wù)中一樣,只有幾個(gè)權(quán)重起到關(guān)鍵作用:
下圖表明,在不同的頻率,模型也能實(shí)現(xiàn)「領(lǐng)悟」:
開放問題
現(xiàn)在,雖然我們對(duì)單層 MLP 解決模加法的機(jī)制及其在訓(xùn)練過程中出現(xiàn)的原因有了扎實(shí)的了解,但在記憶和泛化方面仍有許多有趣的開放性問題。
哪種模型的約束效果更好呢?
從廣義上講,權(quán)重衰減的確可以引導(dǎo)各種模型避免記憶訓(xùn)練數(shù)據(jù)。其他有助于避免過擬合的技術(shù)包括 dropout、縮小模型,甚至數(shù)值不穩(wěn)定的優(yōu)化算法。這些方法以復(fù)雜的非線性方式相互作用,因此很難先驗(yàn)地預(yù)測(cè)哪種方法最終會(huì)誘導(dǎo)泛化。
此外,不同的超參數(shù)也會(huì)使改進(jìn)不那么突然。
為什么記憶比泛化更容易?
有一種理論認(rèn)為:記憶訓(xùn)練集的方法可能比泛化解法多得多。因此,從統(tǒng)計(jì)學(xué)上講,記憶應(yīng)該更有可能首先發(fā)生,尤其是在沒有正則化或正則化很少的情況中。正則化技術(shù)(如權(quán)重衰減)會(huì)優(yōu)先考慮某些解決方案,例如,優(yōu)先考慮 「稀疏 」解決方案,而不是 「密集 」解決方案。
研究表明,泛化與結(jié)構(gòu)良好的表征有關(guān)。然而,這不是必要條件;在求解模加法時(shí),一些沒有對(duì)稱輸入的 MLP 變體學(xué)習(xí)到的 「循環(huán) 」表征較少。研究團(tuán)隊(duì)還發(fā)現(xiàn),結(jié)構(gòu)良好的表征并不是泛化的充分條件。這個(gè)小模型(訓(xùn)練時(shí)沒有權(quán)重衰減)開始泛化,然后轉(zhuǎn)為使用周期性嵌入的記憶。
在下圖中可以看到,如果沒有權(quán)重衰減,記憶模型可以學(xué)習(xí)更大的權(quán)重來減少損失。
甚至可以找到模型開始泛化的超參數(shù),然后切換到記憶,然后切換回泛化。
較大的模型呢?
理解模加法的解決方案并非易事。我們有希望理解更大的模型嗎?在這條路上可能需要:
1) 訓(xùn)練更簡(jiǎn)單的模型,具有更多的歸納偏差和更少的運(yùn)動(dòng)部件。
2) 使用它們來解釋更大模型如何工作的費(fèi)解部分。
3) 按需重復(fù)。
研究團(tuán)隊(duì)相信,這可能是一種更好地有效理解大型模型的的方法,此外,隨著時(shí)間的推移,這種機(jī)制化的可解釋性方法可能有助于識(shí)別模式,從而使神經(jīng)網(wǎng)絡(luò)所學(xué)算法的揭示變得容易甚至自動(dòng)化。
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
昔日排巖場(chǎng) 今朝生態(tài)園
8月15日倫敦LME鋅錠庫(kù)存行情
溫情祝福2022熱門簡(jiǎn)短祝福語(yǔ)盤點(diǎn)
排行
最近更新
- 谷歌:大模型不僅有涌現(xiàn)能力,訓(xùn)練時(shí)間長(zhǎng)了還有「領(lǐng)悟」能力
- 高通清庫(kù)存,芯片大降價(jià)
- 航天動(dòng)力:8月15日融資凈買入59.27萬(wàn)元,連續(xù)3日累計(jì)凈買入230.62萬(wàn)元
- 白云山:8月15日融資買入1832.83萬(wàn)元,融資融券余額11.04億元
- 毫無(wú)底線!夏威夷大火引發(fā)陰謀論,美國(guó)網(wǎng)民竟稱是定向能武器測(cè)試
- 欣龍控股籌碼連續(xù)4期集中
- 零售板塊異動(dòng)下跌 中央商場(chǎng)跌超7%
- 萬(wàn)通發(fā)展:8月15日融資買入105.83萬(wàn)元,融資融券余額5.21億元
- 倒計(jì)時(shí)14天!8月29-31日相約上海,邀您共話光儲(chǔ)融合新業(yè)態(tài)!
- 元成股份8月16日加速下跌
- 江南華南對(duì)流活躍局地或現(xiàn)暴雨,四川盆地等地高溫悶熱持續(xù)
- 新技術(shù)新跨越 廈門海岸迎來新地標(biāo)
- 智云股份8月16日快速反彈
- 冷水江:交出亮眼答卷 描繪生態(tài)銻都
- 突然,朝中社發(fā)布調(diào)查結(jié)果!
- *ST凱撒8月16日打開跌停
- 送,200張168元門票!橙柿請(qǐng)你到溪口應(yīng)夢(mèng)里看秀加體驗(yàn)新式游...
- 朝陽(yáng)精細(xì)管理打造精致環(huán)境 持續(xù)提升濱河空間品質(zhì)
- 烏什:奧特貝希鄉(xiāng)亞闊坦村舉辦“百姓大舞臺(tái)”主題文化活動(dòng)
- 山東省商河縣:全縣衛(wèi)健系統(tǒng)有了勞模創(chuàng)新工作室
- 中老年追星堆出千萬(wàn)粉絲頂流網(wǎng)紅:是否會(huì)成為養(yǎng)老金“殺手”?
- 蘭州市永登縣東溝村“點(diǎn)桃成金”鋪就鄉(xiāng)村致富路
- 通用技術(shù)集團(tuán)中國(guó)環(huán)球租賃有限公司紀(jì)委干部全青松被查
- 億緯鋰能的儲(chǔ)能電池超級(jí)工廠:?jiǎn)尉€產(chǎn)能可達(dá)10GWh
- 【黃金收市】多頭連聞壞消息!“零售銷售”爆表、美聯(lián)儲(chǔ)再傳...
- 音樂狂歡即將來襲美食文旅精彩不停歇
- 全國(guó)唯一,連續(xù)五年!這里被譽(yù)為“中國(guó)家電之都”
- 海口氣候如何,碧桂園公園上城到底適不適合養(yǎng)老?
- 定安養(yǎng)老那里好,恒吉花園養(yǎng)老配套介紹
- 獎(jiǎng)金最高漲至八千!鄭州富士康又招人!中介:萬(wàn)元以上員工才...
今日要聞
- 谷歌:大模型不僅有涌現(xiàn)能力,訓(xùn)練時(shí)間長(zhǎng)了還有「領(lǐng)悟」能力
- 整理父親遺物發(fā)現(xiàn)129發(fā)子彈!銀川市民主動(dòng)上交
- 相關(guān)部門正積極謀劃實(shí)施促進(jìn)經(jīng)濟(jì)回升向好的儲(chǔ)備政策
- 華為的MetaERP會(huì)給國(guó)內(nèi)ERP市場(chǎng)帶來多少可能性
- 蘭白兩區(qū):從阡陌鄉(xiāng)野到創(chuàng)新高地的蝶變
- 市生活垃圾分類研學(xué)基地掛牌
- 真方便!國(guó)際旅客搭乘中老鐵路參加南博會(huì)
- 冷水江:交出亮眼答卷 描繪生態(tài)銻都
- 綠色低碳 技術(shù)共享 2023國(guó)際綠色低碳技術(shù)展在浙江湖州舉辦
- 天風(fēng)證券給予麒盛科技增持評(píng)級(jí),業(yè)績(jī)表現(xiàn)亮眼,突圍家居出口鏈