AI智能評分相差甚遠 真的靠譜嗎?
隨著人工智能的發展,有不少App都應用了智能評分系統。但同時,也有不少家長吐槽英語跟讀App評分,英語專業八級水平的得分也只有80分。
除了應用于口語語音智能評分,人工智能還被應用于判卷上。不過,近日一款號稱服務于美國兩萬所學校的AI教學平臺卻翻車了,被“打臉”的就是搭載在平臺上的AI閱卷系統,學生們借助它的漏洞“裸考”就能輕松及格。之所以被學生們鉆了“空子”,是由于該系統只是通過關鍵詞進行評分,學生們只要借助題目中的“關鍵詞沙拉”,就能順利過關甚至獲得高分。
閱卷前需先設定評判標準
“自動測評打分、閱卷系統一般需要先設定評測的標準,而后根據設定的標準去設計合適的評測算法與模型。”天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。這些都可能是評判的標準。
AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。
“自然語言處理是人工智能的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞匯(單詞之間的關系)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級”熊德意強調,這些基本的自然語言處理技術經常被運用到下游的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。
設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。“比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然后把學生的答案和參考答案進行類比。計算它們的相似度作為學生答案好壞的評測指標。”熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基于參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。
一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那么就會給出一個一元評分,類似地可以計算二元、三元、四元的評分。我們為不同元設置不同權重,然后把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。
為啥不同AI評分相差甚遠
此次AI閱卷翻車的導火索是一個歷史系的教授的學霸兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測后,覺得孩子的回答是基本沒有問題的。
同樣的答案,人工評價和機器評價為何有如此大的出入?
“這就是基于AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規范;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞匯)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等”熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。
“遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最后的結果也會相差甚遠。”
因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案里加入“財富、商隊、中國、印度”等題目中的關鍵詞,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。“可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現‘關鍵詞沙拉’也能蒙混過關的情況。”熊德意解釋。
此外,口語的人工測評與機器測評也存在較大出入。“近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放域、噪音環境下,這種識別率就會下降很多。”熊德意解釋。如果機器“聽”錯了一個單詞,而后機器進行測評,就會形成一個錯誤傳播,也就是上游系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相徑庭。
“目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率同時也計算召回率等。另外,還有對評測指標進行評測,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。”熊德意感嘆,自動評測的難度和對應的自然語言處理任務的難度,很多時候,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。
未來或可以應用于評判閱卷
“傳統的自動評測指標通常是基于符號進行計算的,現在,深度學習等AI技術也越來越多地應用于測評工具中。”熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但是語義是一致的,機器就可以進行精準的評價。因此,基于深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。
“不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。”熊德意解釋,將詞匯表大小維度的獨熱向量壓縮映射到幾百維的稠密向量,神經網絡需要通過大量數據訓練,才能學習到較好的映射函數。
基于自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。“OpenAI的預訓練語言模型GPT-3,在 5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如兩位數加減法100%正確,五位數加減法正確率接近10%”熊德意介紹,不過 這么龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。
但是AI作為閱卷評測“老師”,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件干擾,不因疲勞等原因導致誤判。即使在復雜的干擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分后直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負、增效,幫助學生提高學習效率。
“將主觀題合理地客觀化(比如變成選擇題),可以降低自動閱卷的難度。”熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。
也可以引入人工評測,對AI閱卷系統打分進行復核與修正,通過這種反復的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。
“利用自然語言處理等人工智能技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。”熊德意充滿信心地說,以后的AI自動批閱系統肯定會越來越“聰明”,人工智能與教育的結合也會越來越緊密。(科技日報記者 陳曦)
您可能也感興趣:
為您推薦
保險打工人年終獎多數和上年持平或下降,怎樣發才合理?
A股5家上市險企去年保費收入增長0.03% 行業整體增速放緩
8家險企股權被掛牌轉讓,為何險企股權不再被追捧?
排行
最近更新
- 粵海飼料的股票今日開啟申購,公司老板是鄭石軒嗎?
- 開超市需要辦理什么證件?辦理超市證件有哪些流程?
- 新年伊始,誼瑞智能床撬動億萬智能家居市場
- 個人養老金制度落地倒計時 各方加速布局
- 靠借款經營的科德教育打響職教“赤膊戰”?
- 據悉奧聯物業及李三毛收購惠州金睿達物業92%股權
- 香江控股為子公司提供不超5000萬貸款擔保 累計擔保余額27.87億元
- 四大券商整體降薪30%?內部人:沒聽說!金領內卷,競爭殘酷
- 曲江文旅扭虧為盈:預計2021年度歸母凈利至多750萬元
- 房子首付不夠怎么辦?房子首付能貸款嗎?
- 寵物用品進貨渠道有哪些?這個垂直采購平臺你需要了解
- 交強險最多可以賠償多少?交強險有哪些賠償項目?
- 新生兒醫保卡去哪里領取?領取新生兒醫保卡時需攜帶什么資料?
- 上海市人社局副局長葉霖霖一行領導蒞臨社寶科技調研交流
- 菠蘿蜜沒熟可以吃嗎?菠蘿蜜該如何催熟?
- 蹲馬步一般要蹲多久?蹲馬步鍛煉有哪些注意事項?
- 哪些減肥操的效果比較好?減肥操一天可以做幾次?
- 新舊交鋒 2022年的酒店市場誰能勝?
- 車厘子價格普遍上漲,今年春節還能實現“車厘子自由”嗎?
- 別忘了陪你吃康師傅的人
- 選車困難癥?家用MPV王者傳祺M6 PRO幫你治愈
- 二手高端消費品市場發展潛力巨大,信任危機何解?
- 黑龍江:激發科技創新潛能,甄選重大科技成果做好就地轉化
- 山東將在中醫藥服務模式等方面開展先行先試 不斷提升服務能力
- 精準對標SpaceX,瞄準“液體可回收復用火箭”,深藍航天完成...
- 山東將培育農業特色產業單項冠軍,如何走好“奪冠之路”?
- 混合云成為企業上云最優選擇,未來發展挑戰與機遇并存
- 金普新區五大主導產業增勢強勁 持續推進智能化升級
- 自貢高新區推進營商專員進企業 著力打造“高興辦”營商品牌
- 山東省新生優勢加速凝聚 發展動能實現新跨越