波多野结衣按摩,在线观看亚洲视频,国产嫩草在线观看,91视频最新地址

首頁 新聞 > 科技 > 正文

機器學習:亟須糾正的4大類“偏差”

偏見是指個人對他人或其他群體所持有的缺乏充分事實依據的認識和態度,而機器學習中的偏差則是由缺乏足夠的特征和用于訓練模型的相關數據集不全面引起的。機器學習算法在訓練中嚴格按照其數學構造和數據執行任務,準確完成人類所輸入的內容,因此,機器學習模型的偏差通常是由設計和收集相關數據的人的“偏見”造成的。

數據科學家在構建算法并對機器學習進行訓練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規避。不過,相關的研究人員仍需保持警惕。本文總結了需要了解和防范的4種不同類型的機器學習偏差以供參考。

1. 樣本偏差

樣本偏差是訓練數據的問題。當用于訓練模型的數據不能準確地表現模型將運行的環境時,就會產生樣本偏差。沒有任何一種算法可以與整個宇宙環境的數據交互,并在這個宇宙環境中被訓練,所以,選擇一個足夠大且具備代表性的宇宙子集來減輕樣本的偏差成為一門科學。盡管這門科學容易理解,但并非所有的數據科學家都接受過抽樣技術的訓練。

舉一個自動駕駛汽車的例子。當訓練一個在白天和夜晚都能使汽車自動駕駛的算法時,如果只選取了白天的數據進行訓練,這就等于在模型中引入了樣本偏差,用白天和夜晚的數據訓練算法才可以消除樣本偏差的來源。

2. 偏見偏差

偏見偏差是由受文化和刻板印象影響的數據所引發的結果。可以想象一下,假設有一個計算機視覺算法正在接受訓練來理解工作中的人們,而該算法暴露于數以千計的訓練數據圖,其中許多圖像顯示的是正在寫代碼的男性和在廚房干活的女性,那么,該算法很可能會將編碼員等同于男性,將家務員等同于女性。這就是偏見偏差,因為很顯然女性也能夠寫代碼,而男人也可以做飯。

這里的問題是,被選取的訓練數據有意識地或無意識地反映了社會的刻板印象。要避免這樣的情況出現,可以忽略性別和職業之間的統計關系,并使算法接觸均衡分布的示例。這顯然需要對刻板印象和偏見足夠敏感,而這則取決于人類對模型設定的表達行為的預期,僅靠數學無法克服這類偏差。負責標記和注釋訓練數據的工作人員必須接受相關的訓練,以避免他們將自己對社會的偏見或刻板印象引入到訓練數據中。

3. 計量偏差

如果用于觀察或測量的設備存在問題,這會使系統價值失真,這種偏差趨向于使數據朝某個特定的方向偏離。例如,用帶有彩色濾光片的相機拍攝的每幅訓練數據圖像都會出現顏色完全失真的情況,如此,用于訓練算法的圖像數據實際上也沒有系統地表現出算法將運行的環境。

這種偏差無法通過簡單地擴大數據收集來避免,有效的途徑是,選取多個測量裝置并讓接受過訓練的人員來比較這些裝置的輸出內容。

4. 算法偏差

最后一種類型的偏差與數據無關,屬于算法的數學性質。一方面,具備高方差的模型可以很容易擬合到訓練數據中并能接納復雜性,然而,這種模型對雜訊(又稱噪音noise)十分敏感;另一方面,具備高偏差的模型則更加剛硬,對數據和噪聲的變化不那么敏感,但容易丟失復雜性。因此,數據科學家需要在這兩個屬性之間達到適當的平衡。

數據科學家能通過了解這四種類型的AI偏差構建出更好模型和選取更好的訓練數據。AI算法是由人類構建的,訓練數據也是由人類收集、篩選、標記和注釋的,因此,數據科學家需要敏銳地識別出這些偏差,并使用一種貫徹和迭代的方式來不斷測試模型,并吸納訓練有素的研究員協助,最終規避這些機器學習的偏差。

關鍵詞: 機器學習

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2018 創投網 - www.extremexp.net All rights reserved
聯系我們:33 92 950@qq.com
豫ICP備2020035879號-12