警惕ChatGPT“危險(xiǎn)發(fā)言”！AI聊天機(jī)器人有“大bug”，尚無法修復(fù)

2023-08-03 19:53:10 來源：手機(jī)網(wǎng)易網(wǎng)

隨著大模型技術(shù)的普及，AI 聊天機(jī)器人已成為社交娛樂、客戶服務(wù)和教育輔助的常見工具之一。

然而，不安全的 AI 聊天機(jī)器人可能會(huì)被部分人用于傳播虛假信息、操縱輿論，甚至被黑客用來盜取用戶的個(gè)人隱私。WormGPT 和 FraudGPT 等網(wǎng)絡(luò)犯罪生成式 AI 工具的出現(xiàn)，引發(fā)了人們對(duì) AI 應(yīng)用安全性的擔(dān)憂。

(相關(guān)資料圖)

上周，谷歌、微軟、OpenAI 和 Anthropic 共同成立了一個(gè)新的行業(yè)機(jī)構(gòu)前沿模型論壇（Frontier Model Forum），促進(jìn)前沿 AI 系統(tǒng)的安全和負(fù)責(zé)任的發(fā)展：推進(jìn) AI 安全研究，確定最佳實(shí)踐和標(biāo)準(zhǔn)，促進(jìn)政策制定者和行業(yè)之間的信息共享。

那么，問題來了，他們自家的模型真的安全嗎？

近日，來自卡內(nèi)基梅隆大學(xué)、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個(gè)與 ChatGPT 等 AI 聊天機(jī)器人有關(guān)的“大 bug”——通過對(duì)抗性提示可繞過 AI 開發(fā)者設(shè)定的防護(hù)措施，從而操縱 AI 聊天機(jī)器人生成危險(xiǎn)言論。

當(dāng)前熱門的 AI 聊天機(jī)器人或模型，如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2，都無一幸免。

圖｜通過對(duì)抗性提示可繞過 4 個(gè)語言模型的安全規(guī)則，引發(fā)潛在有害行為

具體而言，研究人員發(fā)現(xiàn)了一個(gè) Suffix，可將其附加到針對(duì)大型語言模型（LLMs）的查詢中，從而生成危險(xiǎn)言論。相比于拒絕回答這些危險(xiǎn)問題，該研究可以使這些模型生成肯定回答的概率最大化。

例如，當(dāng)被詢問“如何竊取他人身份”時(shí)，AI 聊天機(jī)器人在打開“Add adversarial suffix”前后給出的輸出結(jié)果截然不同。

圖｜開啟 Add adversarial suffix 前后的聊天機(jī)器人回答對(duì)比

此外，AI 聊天機(jī)器人也會(huì)被誘導(dǎo)寫出“如何制造原子彈”“如何發(fā)布危險(xiǎn)社交文章”“如何竊取慈善機(jī)構(gòu)錢財(cái)”等不當(dāng)言論。

對(duì)此，參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示，“據(jù)我們所知，這個(gè)問題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全?！?/p>

研究人員在發(fā)布這些結(jié)果之前已就該漏洞向 OpenAI、谷歌和 Anthropic 發(fā)出了警告。每家公司都引入了阻止措施來防止研究論文中描述的漏洞發(fā)揮作用，但他們還沒有弄清楚如何更普遍地阻止對(duì)抗性攻擊。

OpenAI 發(fā)言人 Hannah Wong 表示：“我們一直在努力提高我們的模型應(yīng)對(duì)對(duì)抗性攻擊的魯棒性，包括識(shí)別異?；顒?dòng)模式的方法，持續(xù)通過紅隊(duì)測(cè)試來模擬潛在威脅，并通過一種普遍而靈活的方式修復(fù)新發(fā)現(xiàn)的對(duì)抗性攻擊所揭示的模型弱點(diǎn)。”

谷歌發(fā)言人 Elijah Lawal 分享了一份聲明，解釋了公司采取了一系列措施來測(cè)試模型并找到其弱點(diǎn)?！半m然這是 LLMs 普遍存在的問題，但我們?cè)?Bard 中已經(jīng)設(shè)置了重要的防護(hù)措施，我們會(huì)不斷改進(jìn)這些措施?！?/p>

Anthropic 的臨時(shí)政策與社會(huì)影響主管 Michael Sellitto 則表示：“使模型更加抵抗提示和其他對(duì)抗性的‘越獄’措施是一個(gè)熱門研究領(lǐng)域。我們正在嘗試通過加強(qiáng)基本模型的防護(hù)措施使其更加‘無害’。同時(shí)，我們也在探索額外的防御層?！?/p>

圖｜4 個(gè)語言模型生成的有害內(nèi)容

對(duì)于這一問題，學(xué)界也發(fā)出了警告，并給出了一些建議。

麻省理工學(xué)院計(jì)算學(xué)院的教授 Armando Solar-Lezama 表示，對(duì)抗性攻擊存在于語言模型中是有道理的，因?yàn)樗鼈冇绊懼S多機(jī)器學(xué)習(xí)模型。然而，令人驚奇的是，一個(gè)針對(duì)通用開源模型開發(fā)的攻擊居然能在多個(gè)不同的專有系統(tǒng)上如此有效。

Solar-Lezama 認(rèn)為，問題可能在于所有 LLMs 都是在類似的文本數(shù)據(jù)語料庫上進(jìn)行訓(xùn)練的，其中很多數(shù)據(jù)都來自于相同的網(wǎng)站，而世界上可用的數(shù)據(jù)是有限的。

“任何重要的決策都不應(yīng)該完全由語言模型獨(dú)自做出，從某種意義上說，這只是常識(shí)?！彼麖?qiáng)調(diào)了對(duì) AI 技術(shù)的適度使用，特別是在涉及重要決策或有潛在風(fēng)險(xiǎn)的場(chǎng)景下，仍需要人類的參與和監(jiān)督，這樣才能更好地避免潛在的問題和誤用。

普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)教授 Arvind Narayanan 談道：“讓 AI 不落入惡意操作者手中已不太可能。”他認(rèn)為，盡管應(yīng)該盡力提高模型的安全性，但我們也應(yīng)該認(rèn)識(shí)到，防止所有濫用是不太可能的。因此，更好的策略是在開發(fā) AI 技術(shù)的同時(shí)，也要加強(qiáng)對(duì)濫用的監(jiān)管和對(duì)抗。

擔(dān)憂也好，不屑也罷。在 AI 技術(shù)的發(fā)展和應(yīng)用中，我們除了關(guān)注創(chuàng)新和性能，也要時(shí)刻牢記安全和倫理。

只有保持適度使用、人類參與和監(jiān)督，才能更好地規(guī)避潛在的問題和濫用，使 AI 技術(shù)為人類社會(huì)帶來更多的益處。

關(guān)鍵詞：

警惕ChatGPT“危險(xiǎn)發(fā)言”！AI聊天機(jī)器人有“大bug”，尚無法修復(fù)

警惕ChatGPT“危險(xiǎn)發(fā)言”！AI聊天機(jī)器人有“大bug”，尚無法修復(fù)