(資料圖)
6月1日消息,在不久前,ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,導(dǎo)致涉案的紐約律師可能面臨制裁,這一情況再次引起了大眾對(duì)于AI“說(shuō)謊”的擔(dān)憂。
最對(duì)這一情況,ChatGPT的開(kāi)發(fā)商O(píng)penAI近日發(fā)布了一篇研究論文,闡述了一種解決AI“胡編亂造”問(wèn)題的方法。
這種方法會(huì)在AI模型推理出答案的每個(gè)正確步驟上給予自我獎(jiǎng)勵(lì),而不僅僅是等到推理出正確的最終結(jié)論時(shí)才給予獎(jiǎng)勵(lì)。
研究人員表示,這種方法被稱為“過(guò)程監(jiān)督”,與之相反的是“結(jié)果監(jiān)督”,這可能會(huì)訓(xùn)練出更好的可解釋AI,因?yàn)檫@種策略鼓勵(lì)模型按照更類似人類的“思考”方式進(jìn)行推理。
關(guān)鍵詞: