一文解析「小米大模型」

2023-08-26 12:19:33 來源: 小米公司

站在科技變革的交匯點，以智能為核心的技術正掀起新一輪的科技浪潮。浪潮之下，大模型技術讓AI發展看到了新的光芒，小米便是浪潮中的逐光者。

8月14日晚，雷軍在年度演講中宣布小米科技戰略升級：深耕底層技術、長期持續投入，軟硬深度融合，AI全面賦能，總結為公式（軟件×硬件）??。作為首家把AI放在次方地位的科技公司，小米將包括大模型在內的AI技術看作一種生產力，將AI真正鑲嵌在業務與產品中，為生產、生活賦能。

本次演講中，小米自研大模型正式亮相，雷軍宣布小米大模型技術的主力突破方向為“輕量化、本地部署”，讓用戶在享受安心的數據保護的同時，擁有大模型帶來的先進生產力。值得一提的是，小米自研大模型在近日的權威中文評測榜單C-EVAL和CMMLU中，取得同參數量級第一的好成績；小米自研手機端側大模型初步跑通，部分場景效果媲美云端。

(相關資料圖)

那什么是大模型？小米為什么要做大模型？小米大模型有哪些獨特閃光點？今天，我們來告訴你答案。

解碼大模型

ChatGPT出現以來，大模型優異的理解能力和生成能力令人驚艷，關于其用途的探索也越來越多。目前看來，很多傳統的自然語言處理任務都可以用它來完成，比如搜索、翻譯、問答、摘要、信息抽取和分類以及寫作等。在日常生活中，所有基于對話的服務，如客服、教育、咨詢、導游等，以ChatGPT為代表的大模型都有一定的用武之地。

大模型指參數數量巨大、層次結構復雜的機器學習模型。這些模型通常具有十億到千億甚至萬億個參數，通過大量的數據進行訓練，提供更高的理解和生成能力。

在小米看來，大模型不僅是指模型參數多、尺寸大，更重要的是代表了一種新的訓練范式。我們將其總結為：大數據、大任務、大參數。

- 大數據：指需要用海量的數據去訓練，讓模型從中自動挖掘出所需的信息。通常采用自監督或者無監督學習方式，無需人工標注就可以提煉規律、學習知識，從而提升模型的眼界。

- 大任務：指學習的目標足夠復雜、覆蓋面廣。這樣才能“強迫”模型按照模塊化、高類聚、低耦合的方式組織知識點，實現舉一反三的泛化能力。

- 大參數：指模型的知識容量。大模型的參數規模越大，模型的表達能力和學習能力也就越強。

在這個范式中，我們認為大數據和大任務是不可或缺的。如果沒有大數據，模型不可能學到豐富的常識；如果沒有大任務，知識點和技能點不可能在模型中有機高效地組織起來。

布局人工智能

全力突破大模型

▍以AI為基石，沉淀技術積累

小米基于對產業和時代的思考與理解，選擇對人類文明有長期價值的戰略方向，并堅持長期持續的投入。我們已經布局了12個技術領域，99個細分賽道，未來五年（2022-2026）我們至少會投1000億以上的研發經費。由此構建核心競爭力、牢筑護城河，對人類社會未來的進步發展注入澎湃力量。

AI是未來的生產力，也是小米長期持續投入的底層賽道。小米很早就對人工智能進行布局，2016年小米AI實驗室成立，并組建了第一支視覺AI團隊，今年4月成立專職大模型團隊，歷經7年6次擴展，小米人工智能團隊已經有3000多人，逐步建立了視覺、語音、聲學、知識圖譜、NLP、機器學習、多模態等AI技術能力。

成為浪潮之上的角逐者，必須有對技術的沉淀和積累。作為小米AI技術的“試驗田”和“彈藥庫”，小米AI實驗室會研發中長期的前沿技術，圍繞小米業務做儲備，在集團需要的時候輸出“彈藥”。小米對AI的深刻認識與掌握的技術能力，也有效地賦能了手機、機器人等各個業務板塊。

大模型是未來科技的發展趨勢，更是下一個人工智能的高地。2021年開始，小米就對大模型的方向特別關注，并開展了對話大模型的預研工作。在閑聊對話場景下，依托于月活超過1.15億的智能語音助理小愛同學，小米研發了參數規模為28億的對話模型，達到了當時同等參數規模下業界的最佳效果。這為小米積累了多卡分布式訓練的經驗，為后續開展大規模語言模型訓練奠定了基礎。

▍小米大模型：輕量化、本地部署

通用大模型需要海量數據，和巨大的算力，使用成本也很高。面對這種情況，小米如何突圍？

小米的機會在設備端。截至2023年一季度，小米AIoT平臺已連接設備（不包括智能手機、平板及筆記本電腦）達6.18億臺，是全球規模領先的消費級物聯網平臺。設備多樣，使用場景也各不相同，一個大模型難以兼顧。而我們判斷在大多數場景和垂域，可能并不需要那么大的模型。在一個較小的基座模型上，使用業務數據進行深入定制，就應該能達到用戶的需求。更進一步，如果把一部分大模型能力下放到端側，不僅能更好地保護用戶隱私、而且有機會在本地實現千人千面的個性化定制。

不盲目追求模型參數規模，而是綜合考慮效果、效率與使用成本的均衡，軟硬結合，生態連結，這是大模型技術與小米生態結合的最優方案，也是小米為用戶提供獨特體驗的根本保證。因此，“輕量化、本地部署”是小米大模型技術的主力突破方向。

目前，我們自研的13億參數的端側模型已經在手機端跑通，部分場景效果媲美60億模型在云端的運算結果。與早些時候市場上放出的手機端大模型的方案相比，小米會調整模型結構和參數大小，適配各種芯片在內存和算力上的特點，達到功耗、推理速度和生成效果的最佳平衡。

布局人工智能

全力突破大模型

▍自有數據更懂小米

數據上，我們自己挖掘整理的訓練數據占比達到了80%，其中小米自有的產品和業務數據量達到3TB。因此我們的大模型最懂小米的產品，最懂小米的業務。

▍效率和效果的最佳平衡結構上，我們根據對Transformer結構的理解，融合了自身的實踐經驗進行改良；并且充分考慮設備端芯片的特色要求，合理設置模型的寬度和深度，以達到效率和效果的最佳均衡。

▍更多策略更少浪費

訓練策略上，采用小米提出的ScaledAdam優化器和Eden學習率調度器，顯著提升收斂速度的同時減少了優化器中顯存的浪費。由于模型的知識容量有限，需要更精巧地安排訓練數據的順序，使得模型盡可能多地掌握知識點和技能，減少參數的浪費，以此實現“輕量化”。

▍為用戶隱私安全保駕護航模型部署到端側后，信息不用上傳到云端，所有計算都在本地進行，可以從根本上保證用戶隱私不被泄露。即使在端云結合的服務框架下，隱私信息會存儲在端側，涉及它們的計算也盡可能在端側完成。即使偶爾需要使用云端的能力，信息也會經過處理和加密。

仰望技術星空

腳踏體驗實地

截至2023年8月10日，小米自研的大規模預訓練語言模型MiLM-6B，參數規模為64億，在權威中文評測榜單C-EVAL和CMMLU中位列同等參數規模大模型第一。

在C-Eval評估中，MiLM-6B 的平均分為60.2，總榜單排名第10、同參數量級排名第1。

“C-Eval”是由上海交通大學、清華大學、愛丁堡大學共同構建的一個針對基礎模型的綜合中文評估套件。它由 13948 道多項選擇題組成，涵蓋 52 個不同學科和四個難度級別，覆蓋人文、社科、理工，及其他專業四個大方向，用以幫助中文社區研發大模型。

在CMMLU評估中，MiLM-6B在Five-shot和Zero-shot 測試中的平均分分別為57.17和60.37，均位列中文向模型第1。

“CMMLU”是一個綜合性的中文大模型評估基準，涵蓋了從基礎學科到高級專業水平的67個主題，涉及自然科學、社會科學、人文、以及常識等，專門用于評估語言模型在中文語境下的知識和推理能力。

通過打榜，驗證了我們對特定垂域進行定向增強的技術能夠達到怎樣的效果，這也是用輕量化模型進行業務定制的必備能力。雖然小米大模型取得了優異的成績，但我們不會把榜單排名與用戶體驗畫上等號。好成績的背后，更重要的還是打磨技術、沉淀方法論，將它們運用到產品，提升用戶體驗才是我們的終極目標。

—

科技應著眼于解決問題，以需求與應用為落點。小米大模型采用“輕量化、本地部署”的方案，能夠更好地解決多場景、個性化的用戶需求。一方面，大模型本地運行無需擔心“弱網、無網”情況，且響應速度快，使用穩定；另一方面，在提供更加個性化服務的同時，也能夠更好地保護用戶隱私，讓技術真正改善用戶體驗，讓成績真正落地有效。

未來，小米將擴大模型規模，不斷探索端云結合、多模態融合的大模型解決方案，與小愛同學、手機操作系統MIUI、IoT、機器人、汽車等業務結合，提升小愛同學的理解能力與智能家居指令的識別能力等，給予用戶更加個性化的智能體驗，讓全球每個人都能享受大模型帶來的美好生活。

關鍵詞：

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

一文解析「小米大模型」

您可能也感興趣:

今日熱點

河北財經職業學院（關于河北財經職業學院的基本詳情介紹）

【JOJO同人】行走于陰影之下的我們（一）

天海防務(300008.SZ)：擬以2.73億元對大津重工增資

更多

更多

排行

最近更新

今日要聞

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

一文解析「小米大模型」

您可能也感興趣:

今日熱點

河北財經職業學院（關于河北財經職業學院的基本詳情介紹）

【JOJO同人】行走于陰影之下的我們（一）

天海防務(300008.SZ)：擬以2.73億元對大津重工增資

為您推薦

房企又開始卷了

2023年廈門最新公積金買房首付比例是多少？沒有房貸的首付比例是多少？

李開復在京成立零一萬物AI公司

“蘭州－阿拉木圖”國際貨運航線開通

更多

更多

排行

最近更新

今日要聞