為什么合成數據是人工智能的必備條件？

2023-08-01 17:37:13 來源: 千家網

企業正在收集拍字節、艾字節甚至澤字節數量級的數據。

但數據是混亂的，往往是分散和孤立的。許多企業對于在某些環境中使用數據猶豫不決，因為其具有高度專有性。在電信等受監管行業中，由于其高度敏感的性質，許多數據甚至無法被觸及。

由于這些原因和其他原因，包括缺乏人工智能所需的大規模可用數據、數據偏差或數據漂移，越來越多的企業正在轉向合成數據。合成數據，顧名思義，這不是真實數據，但與真實數據非常相似。

(相關資料圖)

增強、保護現實世界的數據

合成數據在數學和統計上反映了現實世界的數據。但它不是從現實世界中收集和測量的，而是通過計算機模擬、算法、簡單規則、統計建模、模擬和其他基于小型、匿名的現實世界樣本的技術創建出來的。

雖然真實數據幾乎總是從數據中獲取洞察的最佳來源，但由于隱私法規，真實數據往往價格昂貴、不平衡、不可用或無法使用。合成數據可以成為真實數據的有效補充或替代。

人工數據可以幫助減輕真實數據的弱點，或者可以在不存在實時數據、數據高度敏感或存在偏見、或無法使用、共享或移動的情況下使用。但它并不總是需要接受真實數據的訓練：它可以通過查看領域或機構知識或真實數據的痕跡來生成。

隨著數據密集型生成人工智能模型的大量使用以及隱私和安全的必要性，各行業領域的企業正在認識到合成數據的潛力：2021年其全球市場價值僅為1.689億美元，但預計將增長到2031年將達到35億美元，復合年增長率接近36%。

Gartner甚至預測，到2030年，人工智能模型中的合成數據將完全蓋過真實數據。

利用合成數據克服隱私障礙

Vodafone作為一家跨國企業，在多個不同的司法管轄區運營，有著不同的規則和法規，自然會在數據使用方面受到阻礙。主要由于隱私問題，對數據的訪問通常受到限制，當涉及到跨地理邊界的數據流動時，也存在限制。

在這方面，Vodafone與總部位于倫敦的合成數據初創企業Hazy合作。該企業于3月份宣布獲得900萬美元的A輪種子融資，主要與Vodafone、Accenture、PwC、BMW Group和Wells Fargo等大型組織合作，因為他們都在數據方面面臨最大的問題。

這些大型企業擁有“大量敏感數據”，以及分散在不同地區的“大量數據孤島”。

這些企業的工具采用結構化數據集，并使用機器學習(ML)來進行掃描，以識別列之間的趨勢、模式、相關性、差異和關系。無論數據落在哪里，都可以要求它生成一個真實的數據點。

該工具可以生成比源數據集中更多的數據，并且在保留數據特征但不包含敏感細節的安全環境中生成數據。

最全面的數據分析，加速機器學習

Vodafone正在尋求進行更全面的數據分析，研究不同國家的不同廣告活動是如何運作的，并從這些數據集中學習。

“宏偉計劃”是在每個國家創建合成數據資產，并將其聚合到一個中心位置，以便進行更廣泛、更大規模的分析。例如，客戶流失分析。

其他感興趣的領域包括負載預測和欺詐預測，以及網絡中斷的檢測和預測。

人工數據的一大用例是機器學習：加快創建和改進模型，以及執行快速實驗的內部開發流程。

通常沒有足夠的數據訪問權限，雖然可以使用開源數據，但這通常不是需要的，不適合情況。需要創建反映網絡現實的合成數據。

人工數據有助于改善和加速數據訪問，并更快地啟動項目，從而提高生產力和企業的敏捷性。

數據就像機器學習的燃料。沒有數據，就無法進行監督學習。

促進協作，加強自動化

Vodafone龐大的移動網絡供應商生態系統也在進行機器學習創新，如果想要訓練新的機器學習模型，就需要數據。

但要分發網絡數據并不容易。相反，提供合成數據，可以消除這些障礙。

軟件測試是另一個重要的用例。Vodafone正在內部開發更多軟件，這需要進行測試。人工數據可以幫助確定何時可能發生故障、特定網絡軟件組件上的負載如何隨時間變化、如何將計算資源最佳地分配給軟件組件，以及如何將能耗降至最低。

測試每個大企業的基本業務可能需要數年時間，最大的障礙是獲取代表性生產數據。

此外，合成數據對于網絡自動化很重要。因此，希望盡可能實現自動化，以進行預測。

電信以外的合成數據考慮

當然，合成數據不僅僅在電信領域有用例。它被一些企業用來微調大型語言模型(LLM)，而不會泄露企業特定的數據，這些數據對ChatGPT等公共模型“超級敏感”。

與此同時，在銀行業，人工數據已被用作沙盒系統的一部分，以幫助開發圍繞欺詐檢測和洗錢的新技術。與此同時，BMW利用合成數據，對潛在客戶的信用狀況做出了更快、更準確的決策。Accenture開發了一款應用，旨在根據客戶的信用卡和借記卡交易記錄，識別易受影響的客戶，以便及早干預，防止出現不良財務狀況。

同樣，該技術可用于生成數據集的某些區域，以更能反映現實。例如，假設一個數據集只有20%是女性，組織可以再生成30%，以更好地服務其用戶群。

人工數據提高了企業創新的強度，可以快速進行實驗和創新。

獲得認可，決定企業成熟度

從文化的角度來看，使用合成數據可以幫助隱私官員放松心情，并消除其阻礙創新甚至是數據科學家敵人的看法。

我們可以將合成數據視為真正的匿名數據。但盡管如此，由于它改變了數據在組織中移動的方式，因此必須得到首席信息安全官、首席信息官、首席執行官、安全和法律團隊以及其他高管和部門領導的支持。

從小事做起，建立證據點。為了支持這一點，Hazy創建了一個合成數據成熟度模型。成熟階段包括探索、評估、操作化、擴展和嵌入。

不過，同樣重要的是，要解決人工數據是“假的”或不準確的反彈。

有一些誤解認為，使用合成材料會失去一些準確性。合成數據永遠不會像真實數據那樣100%準確。

的確。通過將數據保密，會在準確性上有所犧牲。但盡管略有下降，但還是有很多有用之處。

最終，合成數據將迎來它的時代：監管機構正在開始探索其可能性，隨著越來越多的企業接受它，圍繞數據使用和共享的行業標準將出現。

這對于合成數據來說，是一個有趣的時刻。合成數據是一個復雜的產品，企業不太容易采用。但未來幾年將是一個相當重要的轉折點。

關鍵詞：

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

為什么合成數據是人工智能的必備條件？

您可能也感興趣:

今日熱點

大學生網絡創業規劃大學生網絡創業計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

國金證券：給予安井食品買入評級

更多

更多

排行

最近更新

今日要聞

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

為什么合成數據是人工智能的必備條件？

您可能也感興趣:

今日熱點

大學生網絡創業規劃 大學生網絡創業計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

國金證券：給予安井食品買入評級

為您推薦

Meta高管：公司更名很成功 轉移了媒體視線

生完孩子腰痛下肢乏力 傳統醫學聯手為寶媽“撐腰”

預計投入2.4億元用于科技

蕪湖奧體中心青少年體育免費公益培訓時間安排2023年

更多

更多

排行

最近更新

今日要聞

為什么合成數據是人工智能的必備條件？

大學生網絡創業規劃大學生網絡創業計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

Meta高管：公司更名很成功轉移了媒體視線

生完孩子腰痛下肢乏力傳統醫學聯手為寶媽“撐腰”