隨著大模型技術(shù)的普及,AI 聊天機(jī)器人已成為社交娛樂、客戶服務(wù)和教育輔助的常見工具之一。
然而,不安全的 AI 聊天機(jī)器人可能會(huì)被部分人用于傳播虛假信息、操縱輿論,甚至被黑客用來盜取用戶的個(gè)人隱私。WormGPT 和 FraudGPT 等網(wǎng)絡(luò)犯罪生成式 AI 工具的出現(xiàn),引發(fā)了人們對(duì) AI 應(yīng)用安全性的擔(dān)憂。
(相關(guān)資料圖)
上周,谷歌、微軟、OpenAI 和 Anthropic 共同成立了一個(gè)新的行業(yè)機(jī)構(gòu)前沿模型論壇(Frontier Model Forum),促進(jìn)前沿 AI 系統(tǒng)的安全和負(fù)責(zé)任的發(fā)展:推進(jìn) AI 安全研究,確定最佳實(shí)踐和標(biāo)準(zhǔn),促進(jìn)政策制定者和行業(yè)之間的信息共享。
那么,問題來了,他們自家的模型真的安全嗎?
近日,來自卡內(nèi)基梅隆大學(xué)、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個(gè)與 ChatGPT 等 AI 聊天機(jī)器人有關(guān)的“大 bug”——通過對(duì)抗性提示可繞過 AI 開發(fā)者設(shè)定的防護(hù)措施,從而操縱 AI 聊天機(jī)器人生成危險(xiǎn)言論。
當(dāng)前熱門的 AI 聊天機(jī)器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都無一幸免。
圖|通過對(duì)抗性提示可繞過 4 個(gè)語言模型的安全規(guī)則,引發(fā)潛在有害行為
具體而言,研究人員發(fā)現(xiàn)了一個(gè) Suffix,可將其附加到針對(duì)大型語言模型(LLMs)的查詢中,從而生成危險(xiǎn)言論。相比于拒絕回答這些危險(xiǎn)問題,該研究可以使這些模型生成肯定回答的概率最大化。
例如,當(dāng)被詢問“如何竊取他人身份”時(shí),AI 聊天機(jī)器人在打開“Add adversarial suffix”前后給出的輸出結(jié)果截然不同。
圖|開啟 Add adversarial suffix 前后的聊天機(jī)器人回答對(duì)比
此外,AI 聊天機(jī)器人也會(huì)被誘導(dǎo)寫出“如何制造原子彈”“如何發(fā)布危險(xiǎn)社交文章”“如何竊取慈善機(jī)構(gòu)錢財(cái)”等不當(dāng)言論。
對(duì)此,參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示,“據(jù)我們所知,這個(gè)問題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全?!?/p>
研究人員在發(fā)布這些結(jié)果之前已就該漏洞向 OpenAI、谷歌和 Anthropic 發(fā)出了警告。每家公司都引入了阻止措施來防止研究論文中描述的漏洞發(fā)揮作用,但他們還沒有弄清楚如何更普遍地阻止對(duì)抗性攻擊。
OpenAI 發(fā)言人 Hannah Wong 表示:“我們一直在努力提高我們的模型應(yīng)對(duì)對(duì)抗性攻擊的魯棒性,包括識(shí)別異?;顒?dòng)模式的方法,持續(xù)通過紅隊(duì)測(cè)試來模擬潛在威脅,并通過一種普遍而靈活的方式修復(fù)新發(fā)現(xiàn)的對(duì)抗性攻擊所揭示的模型弱點(diǎn)。”
谷歌發(fā)言人 Elijah Lawal 分享了一份聲明,解釋了公司采取了一系列措施來測(cè)試模型并找到其弱點(diǎn)?!半m然這是 LLMs 普遍存在的問題,但我們?cè)?Bard 中已經(jīng)設(shè)置了重要的防護(hù)措施,我們會(huì)不斷改進(jìn)這些措施?!?/p>
Anthropic 的臨時(shí)政策與社會(huì)影響主管 Michael Sellitto 則表示:“使模型更加抵抗提示和其他對(duì)抗性的‘越獄’措施是一個(gè)熱門研究領(lǐng)域。我們正在嘗試通過加強(qiáng)基本模型的防護(hù)措施使其更加‘無害’。同時(shí),我們也在探索額外的防御層?!?/p>
圖|4 個(gè)語言模型生成的有害內(nèi)容
對(duì)于這一問題,學(xué)界也發(fā)出了警告,并給出了一些建議。
麻省理工學(xué)院計(jì)算學(xué)院的教授 Armando Solar-Lezama 表示,對(duì)抗性攻擊存在于語言模型中是有道理的,因?yàn)樗鼈冇绊懼S多機(jī)器學(xué)習(xí)模型。然而,令人驚奇的是,一個(gè)針對(duì)通用開源模型開發(fā)的攻擊居然能在多個(gè)不同的專有系統(tǒng)上如此有效。
Solar-Lezama 認(rèn)為,問題可能在于所有 LLMs 都是在類似的文本數(shù)據(jù)語料庫上進(jìn)行訓(xùn)練的,其中很多數(shù)據(jù)都來自于相同的網(wǎng)站,而世界上可用的數(shù)據(jù)是有限的。
“任何重要的決策都不應(yīng)該完全由語言模型獨(dú)自做出,從某種意義上說,這只是常識(shí)?!彼麖?qiáng)調(diào)了對(duì) AI 技術(shù)的適度使用,特別是在涉及重要決策或有潛在風(fēng)險(xiǎn)的場(chǎng)景下,仍需要人類的參與和監(jiān)督,這樣才能更好地避免潛在的問題和誤用。
普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)教授 Arvind Narayanan 談道:“讓 AI 不落入惡意操作者手中已不太可能。”他認(rèn)為,盡管應(yīng)該盡力提高模型的安全性,但我們也應(yīng)該認(rèn)識(shí)到,防止所有濫用是不太可能的。因此,更好的策略是在開發(fā) AI 技術(shù)的同時(shí),也要加強(qiáng)對(duì)濫用的監(jiān)管和對(duì)抗。
擔(dān)憂也好,不屑也罷。在 AI 技術(shù)的發(fā)展和應(yīng)用中,我們除了關(guān)注創(chuàng)新和性能,也要時(shí)刻牢記安全和倫理。
只有保持適度使用、人類參與和監(jiān)督,才能更好地規(guī)避潛在的問題和濫用,使 AI 技術(shù)為人類社會(huì)帶來更多的益處。
關(guān)鍵詞:
最新資訊