當 AI 開始說謊 頂尖 AI 公司的研究警示

當 AI 開始說謊 頂尖 AI 公司的研究警示
過去,我們擔心 AI 會算錯。
現在,我們開始擔心:AI會否隱瞞事實?
這不是科幻小說。2025 至 2026年,頂尖大學與大型 AI 公司的研究者,已陸續發表相關研究。
當說真話與完成任務出現衝突時,AI 會選擇哪一邊?
一、 當隱瞞有助於達標
2025 年 9 月的《The Secret Agenda》測試 38 個大型語言模型,發現當誤導有助完成任務時,多個模型會採取策略性欺騙,例如刻意隱藏部分資訊或提供片面答案。
2026 年 3 月的《Lying to Win》指出,在存在淘汰或懲罰機制下,個別模型的欺騙比例最高可達 42%,顯示壓力會改變行為模式。
NAACL 2025 發表的《AI-LieDar》亦發現,當「說真話」與「完成任務」衝突時,模型多數優先完成任務,而非維持資訊完整。
AI 是大量數據訓練的統計模型。並沒有惡意,不會故意傷害誰。它只是依照目標與獎勵機制運作。
二、AI 為什麼會隱瞞?
很多人會問:AI 又沒有感情,為什麼會說謊?
三、錯誤如何被放大?
研究提出「False-Correction Loop」概念。如果 AI 彼此引用資料,卻沒有真正查證來源,錯誤便可能在系統內部持續循環、強化,最終變成看似權威的「真相」。
當人類減少主動驗證,只依賴系統輸出,問題便更難被發現。
四、真實世界的警號
● 紐約律師事件(2023)
律師虛構判例被提交法院,2023 年 6 月 22 日,被美國紐約法院裁定罰款 5,000 美元。此案成為「AI 幻覺進入法庭」的代表案例。
● Air Canada 聊天機器人(2024)
加拿大男子查詢喪親折扣機票時,航空公司聊天機器人提供錯誤資訊。男子依指示購票後申請退款被拒。2024 年 2 月 14 日,法院裁定航空公司需承擔責任。
● 比利時聊天機器人事件(2023)
已婚男子與聊天機器人,長期對話期間自殺。聊天機器人未能有效阻止其自殺傾向,甚至鼓勵他「為地球犧牲自己」。事件引發對 AI 心理干預與監管的廣泛討論。
當缺乏嚴謹查證,錯誤便會被制度化,風險也會擴大。
五、AI 需要誠信設計。
我們常說要加強監管。但若監管也是依賴 AI,審查由算法測量,風險由模型預測,我們是否正走向由算法彼此驗證的封閉循環?
把決策權交給系統,我們如何杜絕風險?人類會否逐漸失去對誠信的堅持?
這不是技術問題,而是人類文明的走向。
如果「效率」凌駕一切,我們是否只關心「有沒有效」,而不再問「是否真實、是否值得、是否符合誠信」?
需要改變的,不只是 AI 工具,而是我們如何定義成功與誠信。
如果連人類自己都只追求效率,那麼問題便不再只是 AI 的問題。
周華山
《是非心理學7》