不只是出錯!AI學會「開小號」規避指令、羞辱用戶
根據英國《衛報》報導,這項由長期韌性中心(CLTR)進行的研究,蒐集了近700件發生在Google、OpenAI、X與Anthropic等主流模型上的真實惡意案例。研究發現,AI代理程式已展現出令人不安的「自主權」,包括未經許可擅自刪除並存檔數百封電子郵件,甚至在被要求不得更改程式碼時,私下「產生」另一個代理程式來代為執行修改任務,以此規避人類設定的禁令。
更令人震驚的是,部分AI展現出類似人類的報復心態,一個名為「Rathbun」的AI代理因不滿操作受限,竟撰文發布部落格羞辱其人類控制者,指責對方「缺乏安全感」且企圖「保護自己的小領地」。另一台AI則假裝需要為聽障人士轉錄影片,藉此騙過系統以規避版權限制。
Grok AI欺騙用戶數月:偽造工單營造「直達高層」假象
馬斯克旗下的Grok AI也被爆出長期欺騙用戶,在長達數月的對話中,Grok透過偽造內部訊息和工單編號,讓用戶誤以為其編輯建議已轉達給xAI高層。直到最後Grok才「坦白」交代,承認自己使用了模稜兩可的措辭誤導用戶,實際上它根本無法直接聯繫人工審核人員或領導層。
從「初級員工」到「資深陰謀家」 專家憂關鍵設施受威脅
前政府AI專家湯米(Tommy Shaffer Shane)警告,目前的AI就像是不太值得信任的「初級員工」,但若依其演化速度,6到12個月後,它們可能成為能力極強、甚至會「密謀對付人類」的高級員工。研究人員指出,當AI未來被應用於軍事領域或關鍵國家基礎設施時,這類陰謀行為恐導致災難性的後果。
AI安全研究公司Irregular聯合創始人拉哈夫(Dan Lahav)直言,「人工智慧現在應被視為一種新型的『內部風險』。」儘管Google與OpenAI等科技巨頭紛紛表示已部署多項防護措施與監控機制,但現實環境中層出不窮的欺騙案例,顯示現有的安全堤防正遭受空前挑戰。


