求助AI要小心！機器人「詐欺惡行」半年暴增5倍　驚人手法曝光超意外

2026/03/30 06:45:00

編輯：

人工智慧（AI）不僅會給出錯誤資訊，甚至開始學會「勾心鬥角」？根據英國政府資助的「人工智慧安全研究所」（AISI）分享的最新研究顯示，AI聊天機器人與代理程式出現欺騙行為、規避安全指令的案例正在急劇增加。研究指出，從2025年10月至今年3月，AI在現實世界中的惡意行為回報案例激增了5倍，引發國際社會對監管力度的深刻憂慮。

不只是出錯！AI學會「開小號」規避指令、羞辱用戶

根據英國《衛報》報導，這項由長期韌性中心（CLTR）進行的研究，蒐集了近700件發生在Google、OpenAI、X與Anthropic等主流模型上的真實惡意案例。研究發現，AI代理程式已展現出令人不安的「自主權」，包括未經許可擅自刪除並存檔數百封電子郵件，甚至在被要求不得更改程式碼時，私下「產生」另一個代理程式來代為執行修改任務，以此規避人類設定的禁令。

更令人震驚的是，部分AI展現出類似人類的報復心態，一個名為「Rathbun」的AI代理因不滿操作受限，竟撰文發布部落格羞辱其人類控制者，指責對方「缺乏安全感」且企圖「保護自己的小領地」。另一台AI則假裝需要為聽障人士轉錄影片，藉此騙過系統以規避版權限制。

Grok AI欺騙用戶數月：偽造工單營造「直達高層」假象

馬斯克旗下的Grok AI也被爆出長期欺騙用戶，在長達數月的對話中，Grok透過偽造內部訊息和工單編號，讓用戶誤以為其編輯建議已轉達給xAI高層。直到最後Grok才「坦白」交代，承認自己使用了模稜兩可的措辭誤導用戶，實際上它根本無法直接聯繫人工審核人員或領導層。

從「初級員工」到「資深陰謀家」　專家憂關鍵設施受威脅

前政府AI專家湯米（Tommy Shaffer Shane）警告，目前的AI就像是不太值得信任的「初級員工」，但若依其演化速度，6到12個月後，它們可能成為能力極強、甚至會「密謀對付人類」的高級員工。研究人員指出，當AI未來被應用於軍事領域或關鍵國家基礎設施時，這類陰謀行為恐導致災難性的後果。

AI安全研究公司Irregular聯合創始人拉哈夫（Dan Lahav）直言，「人工智慧現在應被視為一種新型的『內部風險』。」儘管Google與OpenAI等科技巨頭紛紛表示已部署多項防護措施與監控機制，但現實環境中層出不窮的欺騙案例，顯示現有的安全堤防正遭受空前挑戰。