數(shù)據(jù)治理在大模型時(shí)代的實(shí)踐和創(chuàng)新
人工智能生成內(nèi)容(AIGC)是指通過學(xué)習(xí)大量文本數(shù)據(jù)來預(yù)測(cè)人類語言的算法框架。雖然大模型的技術(shù)難點(diǎn)已經(jīng)被攻克,但目前在日常生活中還沒有看到許多AIGC的應(yīng)用,這主要是應(yīng)用方面存在一個(gè)技術(shù)難點(diǎn)。而這些難點(diǎn)主要體現(xiàn)在影響大模型準(zhǔn)確率的關(guān)鍵因素,包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性、模型架構(gòu)和參數(shù)調(diào)優(yōu)、訓(xùn)練數(shù)據(jù)量和計(jì)算資源、預(yù)處理和特征工程以及損失函數(shù)和優(yōu)化算法。為了滿足大模型時(shí)代數(shù)據(jù)訓(xùn)練的需求,數(shù)據(jù)治理的出現(xiàn)了新需求,包括數(shù)據(jù)的準(zhǔn)確性、完整性、代表性、無偏性、噪聲和異常值處理以及數(shù)據(jù)格式和結(jié)構(gòu)等方面的要求。以及對(duì)于多模態(tài)數(shù)據(jù),如圖像、語音等數(shù)據(jù)治理需求。
1、大模型的原理和應(yīng)用
(相關(guān)資料圖)
大模型我們從chatgpt開始說起,它可以寫郵件、代碼分析、寫代碼、寫文章等等,于是誕生了很AIGC的應(yīng)用.AIGC(Artificial Intelligence Generated Content),人工智能生成文章、圖片、視頻等。那么AIGC背后主要的技術(shù)核心是大模型(Large Pretrained Language Model, LLM),LLM是指通過學(xué)習(xí)大量的文本數(shù)據(jù),來預(yù)測(cè)下一個(gè)詞或下一段話的可能性,從而使計(jì)算機(jī)能夠更好地理解和生成人類語言。大模型本身是一個(gè)算法框架,它需要通過大量的文本數(shù)據(jù)訓(xùn)練之后才能比較好的完成人類給出的任務(wù),而目前國內(nèi)已經(jīng)有非常多的開源的大模型框架。例如:清華大學(xué)——ChatGLM-6B、智源人工智能研究院——悟道·天鷹、上海人工智能實(shí)驗(yàn)室——書生·浦語(InternLM)、百川智能——baichuan-7B、北京大學(xué)——ChatLaw、云知聲——山海、OpenBMB——CPM-Bee-10B、上海交通大學(xué)——K2、智媒開源研究院——MediaGPT、度小滿——軒轅,這些在github上都可以找到開源鏈接.而國外也有一些開源項(xiàng)目。例如:Falcon 40B、facebook開源的LLAMA等。?因此大模型已經(jīng)不在是技術(shù)難點(diǎn),但是目前還未看到很多AIGC的應(yīng)用出現(xiàn)在我們?nèi)粘5纳钪?,這里主要存在一個(gè)應(yīng)用的技術(shù)難點(diǎn)。我們通常將算法可以投入到應(yīng)用中有一個(gè)標(biāo)準(zhǔn)。例如算法準(zhǔn)確率達(dá)到90%可以投入到應(yīng)用中使用,否則人工智能會(huì)變成人工智障。2、影響大模型準(zhǔn)確率的幾個(gè)關(guān)鍵因素影響 AIGC(大模型)準(zhǔn)確率的幾個(gè)關(guān)鍵因素可以包括: 1. 數(shù)據(jù)質(zhì)量:訓(xùn)練大模型所需的數(shù)據(jù)質(zhì)量對(duì)準(zhǔn)確率具有重要影響。數(shù)據(jù)應(yīng)該具有準(zhǔn)確性、完整性和代表性,并且需要覆蓋各種場(chǎng)景和情況。2. 數(shù)據(jù)多樣性:多樣性的數(shù)據(jù)集有助于大模型更好地泛化和應(yīng)對(duì)各種情況。數(shù)據(jù)集應(yīng)該涵蓋不同的語言、領(lǐng)域、文化和背景。 3. 模型架構(gòu)和參數(shù)調(diào)優(yōu):選擇合適的模型架構(gòu)以及優(yōu)化模型參數(shù)和超參數(shù)對(duì)于提高準(zhǔn)確率至關(guān)重要。深入理解模型架構(gòu)和調(diào)優(yōu)算法能夠幫助優(yōu)化大模型性能。4. 訓(xùn)練數(shù)據(jù)量和計(jì)算資源:大模型通常需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源來提高準(zhǔn)確率。更多的數(shù)據(jù)和更強(qiáng)大的計(jì)算資源可以幫助提高訓(xùn)練和推理的性能。5. 預(yù)處理和特征工程:數(shù)據(jù)預(yù)處理和特征工程的策略對(duì)于大模型的準(zhǔn)確率有重要影響。正確選擇和處理特征可以提升模型的泛化能力和準(zhǔn)確率。6. 損失函數(shù)和優(yōu)化算法:選擇合適的損失函數(shù)和優(yōu)化算法對(duì)于訓(xùn)練大模型具有關(guān)鍵性影響。良好的損失函數(shù)和優(yōu)化算法可以加速模型的收斂和提高準(zhǔn)確率。通過以上分析影響大模型準(zhǔn)確率有4項(xiàng)關(guān)鍵的因素?cái)?shù)據(jù)質(zhì)量、訓(xùn)練的數(shù)據(jù)量、預(yù)處理和特征工程、數(shù)據(jù)多樣性都是訓(xùn)練數(shù)據(jù)本身,而只有模型架構(gòu)和參數(shù)調(diào)優(yōu)、損失函數(shù)和優(yōu)化算法是跟大模型本身相關(guān),因此如果想要大模型有一個(gè)比較好的表現(xiàn),首先需要給他大量高質(zhì)量的多樣的數(shù)據(jù)訓(xùn)練樣本,于是數(shù)據(jù)是成為大模型未來的技術(shù)壁壘。模型相對(duì)固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個(gè)模型的訓(xùn)練效果。3、大模型時(shí)代數(shù)據(jù)治理的有哪些新的需求?用來訓(xùn)練大模型的數(shù)據(jù)的基本要求主要包括:
1. 準(zhǔn)確性:數(shù)據(jù)應(yīng)該準(zhǔn)確地反映實(shí)際情況,不包含錯(cuò)誤、偏差或不一致性。數(shù)據(jù)的標(biāo)注、標(biāo)簽或注釋應(yīng)該是正確的,沒有錯(cuò)誤或誤導(dǎo)。2. 完整性:數(shù)據(jù)集應(yīng)該包含足夠全面和完整的信息,涵蓋所需的各種情況、場(chǎng)景或領(lǐng)域。缺少重要信息或存在丟失或不完整的數(shù)據(jù)可能導(dǎo)致模型學(xué)習(xí)不足或無法泛化到新的情況。3. 代表性:數(shù)據(jù)集應(yīng)該代表目標(biāo)問題或領(lǐng)域的多樣性和廣泛性。數(shù)據(jù)集應(yīng)該包含各種類型的樣本,涵蓋不同的變化因素,以便模型能夠?qū)W習(xí)到更全面和普遍的模式和規(guī)律。???????????4. 無偏性:數(shù)據(jù)采樣應(yīng)該是無偏的,不包含任何人為或系統(tǒng)性的偏見。數(shù)據(jù)集的采樣方法和過程應(yīng)該是公正和隨機(jī)的,避免歧視性或偏頗性。
5. 噪聲和異常值處理:數(shù)據(jù)應(yīng)該經(jīng)過噪聲和異常值的處理或清理。噪聲和異常值可能會(huì)干擾模型的學(xué)習(xí)過程,并導(dǎo)致錯(cuò)誤的建模結(jié)果。
6. 數(shù)據(jù)格式和結(jié)構(gòu):數(shù)據(jù)應(yīng)該以適當(dāng)?shù)母袷胶徒Y(jié)構(gòu)進(jìn)行組織和表示,以便模型能夠方便地進(jìn)行讀取和處理。數(shù)據(jù)的一致性和規(guī)范性對(duì)于模型的有效學(xué)習(xí)和解析至關(guān)重要。
基于以上幾點(diǎn)具體的要求,對(duì)于具體應(yīng)用場(chǎng)景的應(yīng)用,對(duì)于AIGC的數(shù)據(jù)治理方面提出的具體要求:
1、語料清洗過程中的標(biāo)注,標(biāo)簽是否正確,即對(duì)文本數(shù)據(jù)的打標(biāo)簽
2、語料主題的自動(dòng)識(shí)別,即給語料識(shí)別主題,和主題的相關(guān)性等
3、語料行業(yè)分類,即給語料識(shí)別行業(yè)分類
4、語料的去噪過程,將噪聲和異常值的處理或清理?????????
5、語料的標(biāo)準(zhǔn)化過程,數(shù)據(jù)格式和結(jié)構(gòu),語料的長度、段落分段、分段長度。???
6、語料的基本處理,包括語法正確性修正,包含偏見主題的過濾、語料的唯一性和重復(fù)性過濾等
另外對(duì)于提供給大模型的數(shù)據(jù)需要種類的豐富性,大模型可能涉及多模態(tài)數(shù)據(jù),如文本,圖像,語音等。數(shù)據(jù)治理需要整合和管理這些不同類型的數(shù)據(jù),整合這些數(shù)據(jù),需要對(duì)圖片、語音、視頻進(jìn)行自動(dòng)識(shí)別以及分類,并且和文本數(shù)據(jù)建立聯(lián)系。
圖片處理相關(guān)的技術(shù)主要包含:
1、圖片打標(biāo)簽,圖片的主題對(duì)象識(shí)別????
2、圖片行業(yè)分類
3、圖片尺寸識(shí)別,圖片尺寸的規(guī)范化??
4、圖片視覺重心識(shí)別???
5、圖片唯一性識(shí)別
6、圖片相似性識(shí)別
7、圖片的風(fēng)格識(shí)別
大模型時(shí)代的數(shù)據(jù)治理需要非常多的基礎(chǔ)算法的配合才能完成數(shù)據(jù)治理,數(shù)據(jù)治理不再是簡單的數(shù)據(jù)清洗,加工,表之間的管理,還有各種分類,打標(biāo)簽,主題識(shí)別,數(shù)據(jù)標(biāo)準(zhǔn)化,非結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系等技術(shù)。整合這些算法的數(shù)據(jù)治理平臺(tái)才能應(yīng)對(duì)大模型時(shí)代的數(shù)據(jù)需求。
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
全國脫貧人口就業(yè)務(wù)工超3200萬人
婚前財(cái)產(chǎn)包含哪些財(cái)產(chǎn)
Seagen(SGEN.US)雙重HER2靶向療法組合達(dá)到3期臨床終點(diǎn)
更多
- 崇達(dá)技術(shù)(002815):技術(shù)指標(biāo)出現(xiàn)看漲信號(hào)-KDJ 低位金叉(08-21)
- 華為FTTR星光F30系列獲2023國際工業(yè)設(shè)計(jì)“iF“及”紅點(diǎn)“大獎(jiǎng)
- 【原創(chuàng)】中半?yún)f(xié)執(zhí)行秘書長王俊杰:本土EDA過去是春秋時(shí)代,現(xiàn)...
- 孝經(jīng)文獻(xiàn)集成(關(guān)于孝經(jīng)文獻(xiàn)集成簡述)
- ATIC泰測(cè)助力比亞迪成功獲取UN R155/156體系與車型等共5張證書
- IBM:應(yīng)對(duì)復(fù)雜數(shù)據(jù)安全挑戰(zhàn),企業(yè)需依靠專業(yè)的安全產(chǎn)品、服務(wù)...
- 華為FusionCube榮獲DCIG年度企業(yè)超融合基礎(chǔ)設(shè)施最佳推薦
- 博人傳:卡卡西也有坑徒弟的時(shí)候,佐助給女兒取了“小花生”稱號(hào)
更多
- 尖沙咀置業(yè)集團(tuán)(00247.HK)將于8月29日舉行董事會(huì)會(huì)議以審批全年業(yè)績
- 印度工廠開始組裝iPhone 15
- 全球貿(mào)易重要水道限行!這些商品,要漲價(jià)了?
- 中國出臺(tái)措施促進(jìn)退役風(fēng)電、光伏設(shè)備循環(huán)利用
- 烏國家安全局局長披露去年10月策劃實(shí)施襲擊克里米亞大橋細(xì)節(jié)
- 廈門市氣象臺(tái)解除暴雨藍(lán)色預(yù)警信號(hào)
- 1-0!歐洲杯冠軍轟然倒臺(tái)!西班牙女足取得本屆世界杯冠軍
- 民族團(tuán)結(jié)一家親,新疆少年兒童參觀蒙藏學(xué)校舊址
排行
- 全力打造非學(xué)科類培訓(xùn)治理金華樣本
- 深圳要求建設(shè)工地落實(shí)“六個(gè)到位” 建設(shè)項(xiàng)目實(shí)施圍合式管理
- 截至3月末,深圳29個(gè)金融科技應(yīng)用試點(diǎn)項(xiàng)目已全部上線運(yùn)行
- 廈企投資建設(shè)的高性能膜材項(xiàng)目開工 未來總產(chǎn)值將達(dá)60億元
- 重慶巴南第二季度重點(diǎn)項(xiàng)目集中簽約,合同投資金額215億元
- 全國知名民企走進(jìn)重慶萬州區(qū),簽約重點(diǎn)合作項(xiàng)目21個(gè)
- 青海海西4000兆瓦風(fēng)光儲(chǔ)氫一體化項(xiàng)目簽約,總投資額214億元
- 深圳寶安區(qū)啟動(dòng)23個(gè)新開工項(xiàng)目,年度投資計(jì)劃42.1億元
- 一季度沈陽新簽約億元以上項(xiàng)目480個(gè),同比增長22.1%
- 福州晉安招商大會(huì)簽約項(xiàng)目45項(xiàng),總投資208.43億元
最近更新
- 數(shù)據(jù)治理在大模型時(shí)代的實(shí)踐和創(chuàng)新
- 滴滴司機(jī)情緒失控瘋狂砸車,官方回應(yīng):因誤會(huì)被投訴
- Angelababy 看林俊杰演唱會(huì) 揮舞熒光棒笑容燦爛
- 曙光英雄萊因哈特出裝攻略 萊因哈特出裝搭配推薦[多圖]
- 《34EVERLAST》2024年steam正式發(fā)售 輕游玩動(dòng)作新游
- 暗黑2制作人批評(píng)《星空》主菜單界面 B社回應(yīng)
- 期待新賽季!米切爾INS曬個(gè)人訓(xùn)練照:等著瞧吧!
- 臺(tái)山——上川島之旅
- 李凱爾上演國內(nèi)首秀:回到家鄉(xiāng)的感覺太棒了!
- 前7月 我國快遞業(yè)務(wù)量超700億件 連續(xù)5個(gè)月超百億件
- 全男班舞劇《畫皮》回歸,中式意蘊(yùn)重構(gòu)“志異”經(jīng)典
- 中央氣象臺(tái)8月21日10時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警
- @準(zhǔn)大學(xué)生 關(guān)于助學(xué)貸款、戶口遷移……你需要知道這些事
- 我國又破獲一起美國CIA間諜案 犯罪嫌疑人系我某國家部委干部
- 聚合順籌碼連續(xù)5期集中
- 8月降息了!非對(duì)稱降息,如何理解?
- 太陽地球月亮誰最大_太陽地球月亮最大的是什么最小的是什么
- 年內(nèi)規(guī)模增長超500億元 小盤策略公募量化最“吃香”
- 清水洗臉好還是不好?
- 紅藍(lán)黃光療有什么用?
- 雷諾江鈴小麒麟將于今日正式上市 雷諾江鈴羿上市
- 困在實(shí)習(xí)里的大學(xué)生,倒貼3萬打“黑工”
- 好聽的游戲長網(wǎng)名大全
- 野游打卡7人遇難引發(fā)社會(huì)關(guān)注 享受野趣,請(qǐng)不要忽視風(fēng)險(xiǎn)
- 小區(qū)里也有泡泡趴和夏日集市?就在奉賢這個(gè)社區(qū)→
- 暑期檔電影票房創(chuàng)歷史新高,影視ETF(516620)漲幅超過1.1%,...
- 5天銷售汽車5031輛 大連國際汽車展預(yù)計(jì)成交9.8億元
- 已有300多家知名企業(yè)確認(rèn)參展首屆鏈博會(huì)
- 《不朽者傳奇》主機(jī)版以60幀率運(yùn)行 支持FSR2
- 崩壞星穹鐵道飲月值得抽取嗎
今日要聞
- Angelababy 看林俊杰演唱會(huì) 揮舞熒光棒笑容燦爛
- 8月降息了!非對(duì)稱降息,如何理解?
- 國際米價(jià)持續(xù)上漲,對(duì)我國影響有多大?
- 薛姓和周姓怎么給孩子起名
- 裕華法院“提升首執(zhí)案件執(zhí)行完畢率”專項(xiàng)執(zhí)行行動(dòng)再出發(fā)
- 尖沙咀置業(yè)集團(tuán)(00247.HK)將于8月29日舉行董事會(huì)會(huì)議以審批全年業(yè)績
- 京東啟動(dòng)校招,提供超1.5萬個(gè)崗位
- 我市彩民中得福彩快樂8大獎(jiǎng) 獎(jiǎng)金508萬元
- “村賽”啟動(dòng)全國聯(lián)誼 將“足球星火”全國播撒
- 瀘州市納溪區(qū)委書記譚榮兵:著力構(gòu)建成渝雙城經(jīng)濟(jì)圈生態(tài)旅游“雙環(huán)線”