世界熱訊:MosaicML 推出 300 億參數模型,訓練成本 70 萬
(資料圖)
AI 創業公司 MosaicML 近日發布了其語言模型 MPT-30B,單從參數來看,這個模型具有 300 億參數,放在如今動則上千億參數的模型領域中并沒有什么突出的地方。但這個新模型的訓練成本卻只有其他模型的零頭,有望擴大模型在更廣泛領域的運用。
MosaicML 的首席執行官兼聯合創始人 Naveen Rao 表示,MPT-30B 的訓練成本為 70 萬美元,遠低于訓練 GPT-3 所需的數千萬美元。此外,MPT-30B 模型的質量超過了 OpenAI 在 2020 年發布的初版 GPT-3。由于 MPT-30B 的成本較低,體積較小,它也可以更快速地被訓練,并部署在本地硬件設備上。
MosaicML 使用了 Alibi 和 FlashAttention 技術來優化模型,可以實現更長的文本長度和對 GPU 計算的高利用率。MosaicML 也是少數幾個能夠使用 Nvidia H100 GPU 的實驗室,相比以往,這使得每 GPU 的吞吐量增加了 2.4 倍以上,帶來更快的完成時間。
300 億參數這是一個在大模型領域經常看到的數字,300 億參數為什么這么特殊呢?MosaicML 首席科學家 Frankle 則解釋道,首先 300 億參數能夠確保它可以在本地硬件上輕松運行,同時保持質量與 GPT-3 差不多或略優于它。
其次任何超過 300 億參數限制的模型都需要將模型分解成多個平行段,通常也需要更加昂貴的多 GPU 設置。
除了讓 AI 技術更容易獲得之外,MosaicML 還專注于提高數據質量,以提高模型性能。他們目前正在開發工具,幫助用戶在預訓練過程中分層加入特定領域的數據。這確保了多樣化和高質量的數據組合。將模型擴展到 300 億參數只是 MosaicML 的第一步,接下來他們將以降低成本為前提,推出更大的、更高質量的模型。
開發者可以從 Hugging Face 下載并使用開源的 MPT-30B 基礎模型,開發者還可以在自己的硬件上用自己的數據對模型進行微調。
關鍵詞:
您可能也感興趣:
今日熱點
為您推薦
2023年黑龍江省高考錄取控制分數線劃定|今日最新
快消息!感冒喝蜂蜜水有用不_感冒喝蜂蜜水有用
世界速遞!福建2023年高考成績下午可查 錄取控制線傍晚或發布
排行
最近更新
- 世界熱訊:MosaicML 推出 300 億參數模型,訓練成本 70 萬
- 日本強推核污染水排海 日本民眾:不應做危害子孫后代的事|焦...
- 今頭條!合同因清償而終止的情形有哪些
- 頭條焦點:“蒙哥馬利”為啥會被蘇軍解救?
- 房屋拆遷合同樣本
- 天天實時:黨建引領促共建 端午“粽”情暖民心
- 安全生產許可證查詢系統專區 安全生產許可證查詢系統 世界微資訊
- 合伙人利潤分配計算公式 合伙人利潤分配方案|環球今頭條
- 漢陽:漢水公園荷花開滿塘
- 天天關注:宋白釉蓮口弦紋六管瓶
- 哈爾濱人才補貼_哈爾濱人才 環球熱文
- 宋白釉瓷碗 全球速讀
- 每日熱議!讓趙麗穎陪跑,51歲的吳越卻是影視圈不一樣的煙火 ...
- 環球熱議:天天精選!如何辦理手機電子證據保全公證
- 肺結核解除勞動合同可不可以?
- 【世界快播報】安徽農業大學貼吧2018_安徽農業大學貼吧
- 世界快資訊丨10省區市將現大到暴雨 上海廣東等地局部有大暴雨
- Meta將在加拿大終止提供新聞服務|焦點速讀
- 今日熱門!駕駛證a2幾年年審一次
- 全球資訊:女子到賓館匆匆開房浙江老板娘報警 聽到里面傳出...
- 全球消息!杰特-霍華德:最期待和喬治交手 我看他的比賽&偷...
- 環球微速訊:國服關停5個月 暴雪禁止國內玩家參與暗黑4活動
- 0糖0脂0卡:旭日森林無糖烏龍茶2.33元/瓶官方狂促
- 巴媒列有資格參加2025世俱杯的32支球隊:曼城、皇馬、切爾西...
- 機構不看好?多只債基凈值創新高后遭大額贖回 如何應對?-熱點評
- 全球播報:俄羅斯首都莫斯科已加強安全措施
- 金針菇怎么保存? 金針菇放10天還能吃么?怎么看金針菇是不...
- 古老運動“火出圈” 龍舟也有“冷知識”-世界快消息
- 世界快資訊:保護知識產權激發創新活力
- 滴滴:端午休閑娛樂訂單較節前增長80%