山東棗莊:下調住房公積金貸款首付款比例 多子女家庭最高貸款60萬
2023-08-25 06:42:07
【資料圖】
谷歌DeepMind于8月21日發布論文,提出一種使LLM與人類偏好對齊更簡單的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人類反饋的強化學習)使用人類反饋改進語言模型,ReST通過生成和使用離線數據進行訓練,從而使得LLM與人類偏好保持一致。研究團隊表示,雖然ReST可用于所有生成任務,但本文的重點是機器翻譯。研究者在機器翻譯任務上進行了實驗,測試基準包括IWSLT 2014、WMT 2020和Web Domain。結果表明,ReST可以極大地提高翻譯質量。
關鍵詞:
關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息
Copyright © 2005-2023 創投網 - www.extremexp.net All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3