數(shù)據(jù)治理在大模型時(shí)代的實(shí)踐和創(chuàng)新

2023-08-21 11:20:53 來(lái)源: 商業(yè)新知網(wǎng)

人工智能生成內(nèi)容（AIGC）是指通過(guò)學(xué)習(xí)大量文本數(shù)據(jù)來(lái)預(yù)測(cè)人類語(yǔ)言的算法框架。雖然大模型的技術(shù)難點(diǎn)已經(jīng)被攻克，但目前在日常生活中還沒(méi)有看到許多AIGC的應(yīng)用，這主要是應(yīng)用方面存在一個(gè)技術(shù)難點(diǎn)。而這些難點(diǎn)主要體現(xiàn)在影響大模型準(zhǔn)確率的關(guān)鍵因素，包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性、模型架構(gòu)和參數(shù)調(diào)優(yōu)、訓(xùn)練數(shù)據(jù)量和計(jì)算資源、預(yù)處理和特征工程以及損失函數(shù)和優(yōu)化算法。為了滿足大模型時(shí)代數(shù)據(jù)訓(xùn)練的需求，數(shù)據(jù)治理的出現(xiàn)了新需求，包括數(shù)據(jù)的準(zhǔn)確性、完整性、代表性、無(wú)偏性、噪聲和異常值處理以及數(shù)據(jù)格式和結(jié)構(gòu)等方面的要求。以及對(duì)于多模態(tài)數(shù)據(jù)，如圖像、語(yǔ)音等數(shù)據(jù)治理需求。

1、大模型的原理和應(yīng)用

(相關(guān)資料圖)

大模型我們從chatgpt開始說(shuō)起，它可以寫郵件、代碼分析、寫代碼、寫文章等等，于是誕生了很AIGC的應(yīng)用.AIGC（Artificial Intelligence Generated Content），人工智能生成文章、圖片、視頻等。那么AIGC背后主要的技術(shù)核心是大模型（Large Pretrained Language Model, LLM），LLM是指通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù)，來(lái)預(yù)測(cè)下一個(gè)詞或下一段話的可能性，從而使計(jì)算機(jī)能夠更好地理解和生成人類語(yǔ)言。大模型本身是一個(gè)算法框架，它需要通過(guò)大量的文本數(shù)據(jù)訓(xùn)練之后才能比較好的完成人類給出的任務(wù)，而目前國(guó)內(nèi)已經(jīng)有非常多的開源的大模型框架。例如：清華大學(xué)——ChatGLM-6B、智源人工智能研究院——悟道·天鷹、上海人工智能實(shí)驗(yàn)室——書生·浦語(yǔ)（InternLM）、百川智能——baichuan-7B、北京大學(xué)——ChatLaw、云知聲——山海、OpenBMB——CPM-Bee-10B、上海交通大學(xué)——K2、智媒開源研究院——MediaGPT、度小滿——軒轅，這些在github上都可以找到開源鏈接.而國(guó)外也有一些開源項(xiàng)目。例如：Falcon 40B、facebook開源的LLAMA等。?因此大模型已經(jīng)不在是技術(shù)難點(diǎn)，但是目前還未看到很多AIGC的應(yīng)用出現(xiàn)在我們?nèi)粘５纳钪校@里主要存在一個(gè)應(yīng)用的技術(shù)難點(diǎn)。我們通常將算法可以投入到應(yīng)用中有一個(gè)標(biāo)準(zhǔn)。例如算法準(zhǔn)確率達(dá)到90%可以投入到應(yīng)用中使用，否則人工智能會(huì)變成人工智障。2、影響大模型準(zhǔn)確率的幾個(gè)關(guān)鍵因素影響 AIGC（大模型）準(zhǔn)確率的幾個(gè)關(guān)鍵因素可以包括： 1. 數(shù)據(jù)質(zhì)量：訓(xùn)練大模型所需的數(shù)據(jù)質(zhì)量對(duì)準(zhǔn)確率具有重要影響。數(shù)據(jù)應(yīng)該具有準(zhǔn)確性、完整性和代表性，并且需要覆蓋各種場(chǎng)景和情況。2. 數(shù)據(jù)多樣性：多樣性的數(shù)據(jù)集有助于大模型更好地泛化和應(yīng)對(duì)各種情況。數(shù)據(jù)集應(yīng)該涵蓋不同的語(yǔ)言、領(lǐng)域、文化和背景。 3. 模型架構(gòu)和參數(shù)調(diào)優(yōu)：選擇合適的模型架構(gòu)以及優(yōu)化模型參數(shù)和超參數(shù)對(duì)于提高準(zhǔn)確率至關(guān)重要。深入理解模型架構(gòu)和調(diào)優(yōu)算法能夠幫助優(yōu)化大模型性能。4. 訓(xùn)練數(shù)據(jù)量和計(jì)算資源：大模型通常需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源來(lái)提高準(zhǔn)確率。更多的數(shù)據(jù)和更強(qiáng)大的計(jì)算資源可以幫助提高訓(xùn)練和推理的性能。5. 預(yù)處理和特征工程：數(shù)據(jù)預(yù)處理和特征工程的策略對(duì)于大模型的準(zhǔn)確率有重要影響。正確選擇和處理特征可以提升模型的泛化能力和準(zhǔn)確率。6. 損失函數(shù)和優(yōu)化算法：選擇合適的損失函數(shù)和優(yōu)化算法對(duì)于訓(xùn)練大模型具有關(guān)鍵性影響。良好的損失函數(shù)和優(yōu)化算法可以加速模型的收斂和提高準(zhǔn)確率。通過(guò)以上分析影響大模型準(zhǔn)確率有4項(xiàng)關(guān)鍵的因素?cái)?shù)據(jù)質(zhì)量、訓(xùn)練的數(shù)據(jù)量、預(yù)處理和特征工程、數(shù)據(jù)多樣性都是訓(xùn)練數(shù)據(jù)本身，而只有模型架構(gòu)和參數(shù)調(diào)優(yōu)、損失函數(shù)和優(yōu)化算法是跟大模型本身相關(guān)，因此如果想要大模型有一個(gè)比較好的表現(xiàn)，首先需要給他大量高質(zhì)量的多樣的數(shù)據(jù)訓(xùn)練樣本，于是數(shù)據(jù)是成為大模型未來(lái)的技術(shù)壁壘。模型相對(duì)固定的前提下，通過(guò)提升數(shù)據(jù)的質(zhì)量和數(shù)量來(lái)提升整個(gè)模型的訓(xùn)練效果。3、大模型時(shí)代數(shù)據(jù)治理的有哪些新的需求？

用來(lái)訓(xùn)練大模型的數(shù)據(jù)的基本要求主要包括：

1. 準(zhǔn)確性：數(shù)據(jù)應(yīng)該準(zhǔn)確地反映實(shí)際情況，不包含錯(cuò)誤、偏差或不一致性。數(shù)據(jù)的標(biāo)注、標(biāo)簽或注釋應(yīng)該是正確的，沒(méi)有錯(cuò)誤或誤導(dǎo)。2. 完整性：數(shù)據(jù)集應(yīng)該包含足夠全面和完整的信息，涵蓋所需的各種情況、場(chǎng)景或領(lǐng)域。缺少重要信息或存在丟失或不完整的數(shù)據(jù)可能導(dǎo)致模型學(xué)習(xí)不足或無(wú)法泛化到新的情況。3. 代表性：數(shù)據(jù)集應(yīng)該代表目標(biāo)問(wèn)題或領(lǐng)域的多樣性和廣泛性。數(shù)據(jù)集應(yīng)該包含各種類型的樣本，涵蓋不同的變化因素，以便模型能夠?qū)W習(xí)到更全面和普遍的模式和規(guī)律。???????????

4. 無(wú)偏性：數(shù)據(jù)采樣應(yīng)該是無(wú)偏的，不包含任何人為或系統(tǒng)性的偏見(jiàn)。數(shù)據(jù)集的采樣方法和過(guò)程應(yīng)該是公正和隨機(jī)的，避免歧視性或偏頗性。

5. 噪聲和異常值處理：數(shù)據(jù)應(yīng)該經(jīng)過(guò)噪聲和異常值的處理或清理。噪聲和異常值可能會(huì)干擾模型的學(xué)習(xí)過(guò)程，并導(dǎo)致錯(cuò)誤的建模結(jié)果。

6. 數(shù)據(jù)格式和結(jié)構(gòu)：數(shù)據(jù)應(yīng)該以適當(dāng)?shù)母袷胶徒Y(jié)構(gòu)進(jìn)行組織和表示，以便模型能夠方便地進(jìn)行讀取和處理。數(shù)據(jù)的一致性和規(guī)范性對(duì)于模型的有效學(xué)習(xí)和解析至關(guān)重要。

基于以上幾點(diǎn)具體的要求，對(duì)于具體應(yīng)用場(chǎng)景的應(yīng)用，對(duì)于AIGC的數(shù)據(jù)治理方面提出的具體要求：

1、語(yǔ)料清洗過(guò)程中的標(biāo)注，標(biāo)簽是否正確，即對(duì)文本數(shù)據(jù)的打標(biāo)簽

2、語(yǔ)料主題的自動(dòng)識(shí)別，即給語(yǔ)料識(shí)別主題，和主題的相關(guān)性等

3、語(yǔ)料行業(yè)分類，即給語(yǔ)料識(shí)別行業(yè)分類

4、語(yǔ)料的去噪過(guò)程，將噪聲和異常值的處理或清理?????????

5、語(yǔ)料的標(biāo)準(zhǔn)化過(guò)程，數(shù)據(jù)格式和結(jié)構(gòu)，語(yǔ)料的長(zhǎng)度、段落分段、分段長(zhǎng)度。???

6、語(yǔ)料的基本處理，包括語(yǔ)法正確性修正，包含偏見(jiàn)主題的過(guò)濾、語(yǔ)料的唯一性和重復(fù)性過(guò)濾等

另外對(duì)于提供給大模型的數(shù)據(jù)需要種類的豐富性，大模型可能涉及多模態(tài)數(shù)據(jù)，如文本，圖像，語(yǔ)音等。數(shù)據(jù)治理需要整合和管理這些不同類型的數(shù)據(jù)，整合這些數(shù)據(jù)，需要對(duì)圖片、語(yǔ)音、視頻進(jìn)行自動(dòng)識(shí)別以及分類，并且和文本數(shù)據(jù)建立聯(lián)系。

圖片處理相關(guān)的技術(shù)主要包含：

1、圖片打標(biāo)簽，圖片的主題對(duì)象識(shí)別????

2、圖片行業(yè)分類

3、圖片尺寸識(shí)別，圖片尺寸的規(guī)范化??

4、圖片視覺(jué)重心識(shí)別???

5、圖片唯一性識(shí)別

6、圖片相似性識(shí)別

7、圖片的風(fēng)格識(shí)別

大模型時(shí)代的數(shù)據(jù)治理需要非常多的基礎(chǔ)算法的配合才能完成數(shù)據(jù)治理，數(shù)據(jù)治理不再是簡(jiǎn)單的數(shù)據(jù)清洗，加工，表之間的管理，還有各種分類，打標(biāo)簽，主題識(shí)別，數(shù)據(jù)標(biāo)準(zhǔn)化，非結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系等技術(shù)。整合這些算法的數(shù)據(jù)治理平臺(tái)才能應(yīng)對(duì)大模型時(shí)代的數(shù)據(jù)需求。

關(guān)鍵詞：

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

數(shù)據(jù)治理在大模型時(shí)代的實(shí)踐和創(chuàng)新

您可能也感興趣:

今日熱點(diǎn)

京東啟動(dòng)校招，提供超1.5萬(wàn)個(gè)崗位

花唄分期還款從什么時(shí)候開始還-

SINO HOTELS(01221.HK)8月29日舉行董事會(huì)會(huì)議批準(zhǔn)刊發(fā)全年業(yè)績(jī)

更多

更多

排行

最近更新

今日要聞

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

數(shù)據(jù)治理在大模型時(shí)代的實(shí)踐和創(chuàng)新

您可能也感興趣:

今日熱點(diǎn)

京東啟動(dòng)校招，提供超1.5萬(wàn)個(gè)崗位

花唄分期還款從什么時(shí)候開始還-

SINO HOTELS(01221.HK)8月29日舉行董事會(huì)會(huì)議批準(zhǔn)刊發(fā)全年業(yè)績(jī)

為您推薦

新易盛：8月18日融資買入1.76億元，融資融券余額15.4億元

全國(guó)脫貧人口就業(yè)務(wù)工超3200萬(wàn)人

婚前財(cái)產(chǎn)包含哪些財(cái)產(chǎn)

Seagen(SGEN.US)雙重HER2靶向療法組合達(dá)到3期臨床終點(diǎn)

更多

更多

排行

最近更新

今日要聞