波多野结衣按摩,在线观看亚洲视频,国产嫩草在线观看,91视频最新地址

首頁 資訊 > 金融 > 正文

GPT-4 由 8 個 MoE 模型組成,真的嗎?|環(huán)球快看點


(相關資料圖)

讓大家沒想到的是,被傳的神乎其神的GPT-4依舊是大力出奇跡的產(chǎn)物。回到ensemble的老路上去了,OpenAI一直在畫的AGI的大餅感覺又離我們遠了。

黑客 George Hotz 在一個播客中透露,GPT-4 是由 8 個 2200 億參數(shù)的 MoE 模型組成的,每個模型都針對不同的數(shù)據(jù)和任務分布進行了訓練,然后通過一些小技巧將它們混合起來。他還說,這樣做是因為單個模型的參數(shù)規(guī)模已經(jīng)達到了極限,而且訓練時間越長效果越差,所以他們采用了多模型集成的方法來提高性能。他認為,OpenAI 對此保密的原因是不想讓別人知道他們的模型并不是那么先進,只要花更多的錢就能復制。

這個說法得到了 PyTorch 創(chuàng)始人 Soumith Chintala 的認可2,他表示自己也聽過類似的傳聞,但只有 George Hotz 在公開場合說出來了。不過,也有人對這個說法表示懷疑或質疑134,認為這樣的模型推理成本太高,而且沒有充分利用 GPT-4 的潛力。目前,OpenAI 還沒有對這個爆料做出任何回應或證實。

這件事情很可能是真的,理由如下:

已知的Prior:

1.多個信源認為GPT4比GPT3.5參數(shù)量大至少一個數(shù)量級,也就是1.7萬億以上。

2. OpenAI去年六月發(fā)表過技術報告說他們訓練LLM用了MoE.

現(xiàn)在的觀測:

有人說GPT4是一個1.76萬億參數(shù)的MoE

網(wǎng)友得知秘訣后,打算自己也要訓練一個LLaMA集合體與GPT-4競爭。

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.extremexp.net All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3