一文解析「小米大模型」
站在科技變革的交匯點(diǎn),以智能為核心的技術(shù)正掀起新一輪的科技浪潮。浪潮之下,大模型技術(shù)讓AI發(fā)展看到了新的光芒,小米便是浪潮中的逐光者。
8月14日晚,雷軍在年度演講中宣布小米科技戰(zhàn)略升級:深耕底層技術(shù)、長期持續(xù)投入,軟硬深度融合,AI全面賦能,總結(jié)為公式(軟件×硬件)??。作為首家把AI放在次方地位的科技公司,小米將包括大模型在內(nèi)的AI技術(shù)看作一種生產(chǎn)力,將AI真正鑲嵌在業(yè)務(wù)與產(chǎn)品中,為生產(chǎn)、生活賦能。
本次演講中,小米自研大模型正式亮相,雷軍宣布小米大模型技術(shù)的主力突破方向?yàn)椤拜p量化、本地部署”,讓用戶在享受安心的數(shù)據(jù)保護(hù)的同時(shí),擁有大模型帶來的先進(jìn)生產(chǎn)力。值得一提的是,小米自研大模型在近日的權(quán)威中文評測榜單C-EVAL和CMMLU中,取得同參數(shù)量級第一的好成績;小米自研手機(jī)端側(cè)大模型初步跑通,部分場景效果媲美云端。
(相關(guān)資料圖)
那什么是大模型?小米為什么要做大模型?小米大模型有哪些獨(dú)特閃光點(diǎn)?今天,我們來告訴你答案。
01
解碼大模型
ChatGPT出現(xiàn)以來,大模型優(yōu)異的理解能力和生成能力令人驚艷,關(guān)于其用途的探索也越來越多。目前看來,很多傳統(tǒng)的自然語言處理任務(wù)都可以用它來完成,比如搜索、翻譯、問答、摘要、信息抽取和分類以及寫作等。在日常生活中,所有基于對話的服務(wù),如客服、教育、咨詢、導(dǎo)游等,以ChatGPT為代表的大模型都有一定的用武之地。
大模型指參數(shù)數(shù)量巨大、層次結(jié)構(gòu)復(fù)雜的機(jī)器學(xué)習(xí)模型。這些模型通常具有十億到千億甚至萬億個參數(shù),通過大量的數(shù)據(jù)進(jìn)行訓(xùn)練,提供更高的理解和生成能力。
在小米看來,大模型不僅是指模型參數(shù)多、尺寸大,更重要的是代表了一種新的訓(xùn)練范式。我們將其總結(jié)為:大數(shù)據(jù)、大任務(wù)、大參數(shù)。
- 大數(shù)據(jù):指需要用海量的數(shù)據(jù)去訓(xùn)練,讓模型從中自動挖掘出所需的信息。通常采用自監(jiān)督或者無監(jiān)督學(xué)習(xí)方式,無需人工標(biāo)注就可以提煉規(guī)律、學(xué)習(xí)知識,從而提升模型的眼界。
- 大任務(wù):指學(xué)習(xí)的目標(biāo)足夠復(fù)雜、覆蓋面廣。這樣才能“強(qiáng)迫”模型按照模塊化、高類聚、低耦合的方式組織知識點(diǎn),實(shí)現(xiàn)舉一反三的泛化能力。
- 大參數(shù):指模型的知識容量。大模型的參數(shù)規(guī)模越大,模型的表達(dá)能力和學(xué)習(xí)能力也就越強(qiáng)。
在這個范式中,我們認(rèn)為大數(shù)據(jù)和大任務(wù)是不可或缺的。如果沒有大數(shù)據(jù),模型不可能學(xué)到豐富的常識;如果沒有大任務(wù),知識點(diǎn)和技能點(diǎn)不可能在模型中有機(jī)高效地組織起來。
02
布局人工智能
全力突破大模型
▍以AI為基石,沉淀技術(shù)積累
小米基于對產(chǎn)業(yè)和時(shí)代的思考與理解,選擇對人類文明有長期價(jià)值的戰(zhàn)略方向,并堅(jiān)持長期持續(xù)的投入。我們已經(jīng)布局了12個技術(shù)領(lǐng)域,99個細(xì)分賽道,未來五年(2022-2026)我們至少會投1000億以上的研發(fā)經(jīng)費(fèi)。由此構(gòu)建核心競爭力、牢筑護(hù)城河,對人類社會未來的進(jìn)步發(fā)展注入澎湃力量。
AI是未來的生產(chǎn)力,也是小米長期持續(xù)投入的底層賽道。小米很早就對人工智能進(jìn)行布局,2016年小米AI實(shí)驗(yàn)室成立,并組建了第一支視覺AI團(tuán)隊(duì),今年4月成立專職大模型團(tuán)隊(duì),歷經(jīng)7年6次擴(kuò)展,小米人工智能團(tuán)隊(duì)已經(jīng)有3000多人,逐步建立了視覺、語音、聲學(xué)、知識圖譜、NLP、機(jī)器學(xué)習(xí)、多模態(tài)等AI技術(shù)能力。
成為浪潮之上的角逐者,必須有對技術(shù)的沉淀和積累。作為小米AI技術(shù)的“試驗(yàn)田”和“彈藥庫”,小米AI實(shí)驗(yàn)室會研發(fā)中長期的前沿技術(shù),圍繞小米業(yè)務(wù)做儲備,在集團(tuán)需要的時(shí)候輸出“彈藥”。小米對AI的深刻認(rèn)識與掌握的技術(shù)能力,也有效地賦能了手機(jī)、機(jī)器人等各個業(yè)務(wù)板塊。
大模型是未來科技的發(fā)展趨勢,更是下一個人工智能的高地。2021年開始,小米就對大模型的方向特別關(guān)注,并開展了對話大模型的預(yù)研工作。在閑聊對話場景下,依托于月活超過1.15億的智能語音助理小愛同學(xué),小米研發(fā)了參數(shù)規(guī)模為28億的對話模型,達(dá)到了當(dāng)時(shí)同等參數(shù)規(guī)模下業(yè)界的最佳效果。這為小米積累了多卡分布式訓(xùn)練的經(jīng)驗(yàn),為后續(xù)開展大規(guī)模語言模型訓(xùn)練奠定了基礎(chǔ)。
▍小米大模型:輕量化、本地部署
通用大模型需要海量數(shù)據(jù),和巨大的算力,使用成本也很高。面對這種情況,小米如何突圍?
小米的機(jī)會在設(shè)備端。截至2023年一季度,小米AIoT平臺已連接設(shè)備(不包括智能手機(jī)、平板及筆記本電腦)達(dá)6.18億臺,是全球規(guī)模領(lǐng)先的消費(fèi)級物聯(lián)網(wǎng)平臺。設(shè)備多樣,使用場景也各不相同,一個大模型難以兼顧。而我們判斷在大多數(shù)場景和垂域,可能并不需要那么大的模型。在一個較小的基座模型上,使用業(yè)務(wù)數(shù)據(jù)進(jìn)行深入定制,就應(yīng)該能達(dá)到用戶的需求。更進(jìn)一步,如果把一部分大模型能力下放到端側(cè),不僅能更好地保護(hù)用戶隱私、而且有機(jī)會在本地實(shí)現(xiàn)千人千面的個性化定制。
不盲目追求模型參數(shù)規(guī)模,而是綜合考慮效果、效率與使用成本的均衡,軟硬結(jié)合,生態(tài)連結(jié),這是大模型技術(shù)與小米生態(tài)結(jié)合的最優(yōu)方案,也是小米為用戶提供獨(dú)特體驗(yàn)的根本保證。因此,“輕量化、本地部署”是小米大模型技術(shù)的主力突破方向。
目前,我們自研的13億參數(shù)的端側(cè)模型已經(jīng)在手機(jī)端跑通,部分場景效果媲美60億模型在云端的運(yùn)算結(jié)果。與早些時(shí)候市場上放出的手機(jī)端大模型的方案相比,小米會調(diào)整模型結(jié)構(gòu)和參數(shù)大小,適配各種芯片在內(nèi)存和算力上的特點(diǎn),達(dá)到功耗、推理速度和生成效果的最佳平衡。
03
布局人工智能
全力突破大模型
▍自有數(shù)據(jù)更懂小米
數(shù)據(jù)上,我們自己挖掘整理的訓(xùn)練數(shù)據(jù)占比達(dá)到了80%,其中小米自有的產(chǎn)品和業(yè)務(wù)數(shù)據(jù)量達(dá)到3TB。因此我們的大模型最懂小米的產(chǎn)品,最懂小米的業(yè)務(wù)。
▍效率和效果的最佳平衡結(jié)構(gòu)上,我們根據(jù)對Transformer結(jié)構(gòu)的理解,融合了自身的實(shí)踐經(jīng)驗(yàn)進(jìn)行改良;并且充分考慮設(shè)備端芯片的特色要求,合理設(shè)置模型的寬度和深度,以達(dá)到效率和效果的最佳均衡。
▍更多策略更少浪費(fèi)
訓(xùn)練策略上,采用小米提出的ScaledAdam優(yōu)化器和Eden學(xué)習(xí)率調(diào)度器,顯著提升收斂速度的同時(shí)減少了優(yōu)化器中顯存的浪費(fèi)。由于模型的知識容量有限,需要更精巧地安排訓(xùn)練數(shù)據(jù)的順序,使得模型盡可能多地掌握知識點(diǎn)和技能,減少參數(shù)的浪費(fèi),以此實(shí)現(xiàn)“輕量化”。
▍為用戶隱私安全保駕護(hù)航模型部署到端側(cè)后,信息不用上傳到云端,所有計(jì)算都在本地進(jìn)行,可以從根本上保證用戶隱私不被泄露。即使在端云結(jié)合的服務(wù)框架下,隱私信息會存儲在端側(cè),涉及它們的計(jì)算也盡可能在端側(cè)完成。即使偶爾需要使用云端的能力,信息也會經(jīng)過處理和加密。
04
仰望技術(shù)星空
腳踏體驗(yàn)實(shí)地
截至2023年8月10日,小米自研的大規(guī)模預(yù)訓(xùn)練語言模型MiLM-6B,參數(shù)規(guī)模為64億,在權(quán)威中文評測榜單C-EVAL和CMMLU中位列同等參數(shù)規(guī)模大模型第一。
在C-Eval評估中,MiLM-6B 的平均分為60.2,總榜單排名第10、同參數(shù)量級排名第1。
“C-Eval”是由上海交通大學(xué)、清華大學(xué)、愛丁堡大學(xué)共同構(gòu)建的一個針對基礎(chǔ)模型的綜合中文評估套件。它由 13948 道多項(xiàng)選擇題組成,涵蓋 52 個不同學(xué)科和四個難度級別,覆蓋人文、社科、理工,及其他專業(yè)四個大方向,用以幫助中文社區(qū)研發(fā)大模型。
在CMMLU評估中,MiLM-6B在Five-shot和Zero-shot 測試中的平均分分別為57.17和60.37,均位列中文向模型第1。
“CMMLU”是一個綜合性的中文大模型評估基準(zhǔn),涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個主題,涉及自然科學(xué)、社會科學(xué)、人文、以及常識等,專門用于評估語言模型在中文語境下的知識和推理能力。
通過打榜,驗(yàn)證了我們對特定垂域進(jìn)行定向增強(qiáng)的技術(shù)能夠達(dá)到怎樣的效果,這也是用輕量化模型進(jìn)行業(yè)務(wù)定制的必備能力。雖然小米大模型取得了優(yōu)異的成績,但我們不會把榜單排名與用戶體驗(yàn)畫上等號。好成績的背后,更重要的還是打磨技術(shù)、沉淀方法論,將它們運(yùn)用到產(chǎn)品,提升用戶體驗(yàn)才是我們的終極目標(biāo)。
—
科技應(yīng)著眼于解決問題,以需求與應(yīng)用為落點(diǎn)。小米大模型采用“輕量化、本地部署”的方案,能夠更好地解決多場景、個性化的用戶需求。一方面,大模型本地運(yùn)行無需擔(dān)心“弱網(wǎng)、無網(wǎng)”情況,且響應(yīng)速度快,使用穩(wěn)定;另一方面,在提供更加個性化服務(wù)的同時(shí),也能夠更好地保護(hù)用戶隱私,讓技術(shù)真正改善用戶體驗(yàn),讓成績真正落地有效。
未來,小米將擴(kuò)大模型規(guī)模,不斷探索端云結(jié)合、多模態(tài)融合的大模型解決方案,與小愛同學(xué)、手機(jī)操作系統(tǒng)MIUI、IoT、機(jī)器人、汽車等業(yè)務(wù)結(jié)合,提升小愛同學(xué)的理解能力與智能家居指令的識別能力等,給予用戶更加個性化的智能體驗(yàn),讓全球每個人都能享受大模型帶來的美好生活。
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
2023年廈門最新公積金買房首付比例是多少?沒有房貸的首付比例是多少?
李開復(fù)在京成立零一萬物AI公司
“蘭州-阿拉木圖”國際貨運(yùn)航線開通
更多
- 濱海新區(qū)開展“騎碼進(jìn)門”專項(xiàng)行動 黨建引領(lǐng)破解基層治理難題
- 中歐商學(xué)院第三次將課堂“搬到”伊利,實(shí)境研討可持續(xù)發(fā)展案例
- 油價(jià)短線承壓,整體依然陷于盤整
- 【青視點(diǎn)】海慈醫(yī)療北院區(qū)開啟試運(yùn)行,助推城陽區(qū)跑步邁進(jìn)"三...
- 2023成都家長開學(xué)第一課直播時(shí)間+入口+內(nèi)容
- 又書十四言別妻子的意思 妻子的意思
- 上海科研團(tuán)隊(duì)為世界首顆高軌衛(wèi)星“編織”高科技天線關(guān)鍵材料
- 重慶農(nóng)村商業(yè)銀行(03618)公布中期業(yè)績 歸母凈利約69.86億元...
更多
- 福能東方(300173)周評:本周跌6.54%,主力資金合計(jì)凈流入520.46萬元
- 新奧股份:上半年歸母凈利潤22.04億再創(chuàng)新高,天然氣直銷業(yè)務(wù)...
- 綠色越秀丨“木棉王”邀你打call!越秀生態(tài)圈,太豐富了!
- 大力發(fā)展風(fēng)光發(fā)電、生物質(zhì)能!吉林省印發(fā)能源領(lǐng)域碳達(dá)峰方案
- 中式浪漫持續(xù)升溫,江蘇全省7296對新人喜領(lǐng)結(jié)婚證
- 青島地鐵15號線首臺盾構(gòu)始發(fā)井封頂
- 木薯概念股2023年股價(jià)查詢(8月24日)
- 財(cái)政部:不折不扣落實(shí)支持中小企業(yè)發(fā)展的財(cái)稅政策
排行
最近更新
- 一文解析「小米大模型」
- 寧波銀行:連續(xù)15年不良率低于1%
- 中歐商學(xué)院第三次將課堂“搬到”伊利,實(shí)境研討可持續(xù)發(fā)展案例
- 前明星基金經(jīng)理周應(yīng)波旗下私募產(chǎn)品被強(qiáng)平?公司回應(yīng)
- 圓通速遞:預(yù)計(jì)2023年資本開支規(guī)模將保持相對平穩(wěn)態(tài)勢
- 沈陽放大招!買房人的兄弟姐妹也能單獨(dú)落戶
- 工程欠款要不回應(yīng)該怎么處理
- 和秦PLUS過兩招?吉利銀河L6正式開啟預(yù)售
- 上周年輕人那一桌,都聊了些什么呢?|青年創(chuàng)投家「先鋒的我們」
- 二季度收入大幅增長,冀東裝備上半年扣非凈利同比增超900%
- 岱勒新材2023中報(bào)解讀:凈利潤同比增長111.01%,現(xiàn)金流量凈額...
- “沒人理解日本”多國憤怒! 具體是什么情況?
- 梅嶺漂流多長_梅嶺漂流
- 中國中化舉辦債券專場路演交流會
- 港股持續(xù)拉升 信達(dá)生物漲超12% 港股科技ETF(513020)漲超4...
- 東亞局勢緊張之際,日本排放核污水,或是壓倒中日關(guān)系的最后稻草
- 全球變暖背景下,“靠天吃飯”的空調(diào)業(yè)如何創(chuàng)新?
- 新奧股份:上半年歸母凈利潤22.04億再創(chuàng)新高,天然氣直銷業(yè)務(wù)...
- 國產(chǎn)動畫公司進(jìn)軍游戲,_____________?
- 蝦滑怎么做才好吃方法
- 紅酒有雜質(zhì)是怎么回事
- 靠廣告、直播和裁員驚險(xiǎn)過關(guān),但B站的考驗(yàn)在下半年
- 山西省地方標(biāo)準(zhǔn)《工業(yè)涂裝工序大氣污染物排放標(biāo)準(zhǔn)》發(fā)布,202...
- 福斯特:上半年凈利潤8.85億元 同比下降16.31%
- “湖南千萬富翁被送精神病院” 事件 當(dāng)事人在精神病院自縊身亡
- 緯湃科技與寶鋼股份簽署戰(zhàn)略合作協(xié)議
- 購買火車票請注意!12306這些功能有優(yōu)化
- 起底東京電力公司處理核事故“黑歷史”
- 中軸線文創(chuàng)大賽將啟動魅力中軸賽道征集
- 新聞有觀點(diǎn)丨本周人物:自在創(chuàng)作為貴 衣缽相傳亦真
今日要聞
- 造夢西游3青云劍和混元珍珠傘(造夢西游3青云劍怎么飛)
- 濱海新區(qū)開展“騎碼進(jìn)門”專項(xiàng)行動 黨建引領(lǐng)破解基層治理難題
- 中歐商學(xué)院第三次將課堂“搬到”伊利,實(shí)境研討可持續(xù)發(fā)展案例
- 想囤實(shí)惠好物?周到來相助|上新啦周到
- 油價(jià)短線承壓,整體依然陷于盤整
- 起底東京電力公司處理核事故“黑歷史”
- 福能東方(300173)周評:本周跌6.54%,主力資金合計(jì)凈流入520.46萬元
- 新奧股份:上半年歸母凈利潤22.04億再創(chuàng)新高,天然氣直銷業(yè)務(wù)營收貢獻(xiàn)加大
- 智造未來看德陽⑧丨東方汽輪機(jī)集中發(fā)布12個綠色低碳智能新產(chǎn)品
- iPhone 15 Pro會取消靜音開關(guān)嗎?