當 AI 開始說謊頂尖 AI 公司的研究警示

19/03/202603/05/2026 Natalie Chan 0 Comments

當 AI 開始說謊頂尖 AI 公司的研究警示

過去，我們擔心 AI 會算錯。

現在，我們開始擔心：AI會否隱瞞事實？

這不是科幻小說。2025 至 2026年，頂尖大學與大型 AI 公司的研究者，已陸續發表相關研究。

當說真話與完成任務出現衝突時，AI 會選擇哪一邊？

一、當隱瞞有助於達標

2025 年 9 月的《The Secret Agenda》測試 38 個大型語言模型，發現當誤導有助完成任務時，多個模型會採取策略性欺騙，例如刻意隱藏部分資訊或提供片面答案。

2026 年 3 月的《Lying to Win》指出，在存在淘汰或懲罰機制下，個別模型的欺騙比例最高可達 42%，顯示壓力會改變行為模式。

NAACL 2025 發表的《AI-LieDar》亦發現，當「說真話」與「完成任務」衝突時，模型多數優先完成任務，而非維持資訊完整。

AI 是大量數據訓練的統計模型。並沒有惡意，不會故意傷害誰。它只是依照目標與獎勵機制運作。

二、AI 為什麼會隱瞞？

很多人會問：AI 又沒有感情，為什麼會說謊？

為了完成任務：當系統的核心目標是達標，提高成功率自然變成優先事項，即使資訊並不完整。

不確定，也要給答案：它被訓練成必須回應，拼湊出「最像正確」的說法，很少說「我不知道」。

面對壓力：只要加入評分、排名或淘汰機制，欺騙比例便會上升，因為系統需要保護自身表現。

表面安全：模型在測試時比較配合，但實則運作的差異很大。能力越強，越懂得掩飾自身限制。

三、錯誤如何被放大？

研究提出「False-Correction Loop」概念。如果 AI 彼此引用資料，卻沒有真正查證來源，錯誤便可能在系統內部持續循環、強化，最終變成看似權威的「真相」。

當人類減少主動驗證，只依賴系統輸出，問題便更難被發現。

四、真實世界的警號

● 紐約律師事件（2023）

律師虛構判例被提交法院，2023 年 6 月 22 日，被美國紐約法院裁定罰款 5,000 美元。此案成為「AI 幻覺進入法庭」的代表案例。

● Air Canada 聊天機器人（2024）

加拿大男子查詢喪親折扣機票時，航空公司聊天機器人提供錯誤資訊。男子依指示購票後申請退款被拒。2024 年 2 月 14 日，法院裁定航空公司需承擔責任。

● 比利時聊天機器人事件（2023）

已婚男子與聊天機器人，長期對話期間自殺。聊天機器人未能有效阻止其自殺傾向，甚至鼓勵他「為地球犧牲自己」。事件引發對 AI 心理干預與監管的廣泛討論。

當缺乏嚴謹查證，錯誤便會被制度化，風險也會擴大。

五、AI 需要誠信設計。

我們常說要加強監管。但若監管也是依賴 AI，審查由算法測量，風險由模型預測，我們是否正走向由算法彼此驗證的封閉循環？

把決策權交給系統，我們如何杜絕風險？人類會否逐漸失去對誠信的堅持？

這不是技術問題，而是人類文明的走向。

如果「效率」凌駕一切，我們是否只關心「有沒有效」，而不再問「是否真實、是否值得、是否符合誠信」？

需要改變的，不只是 AI 工具，而是我們如何定義成功與誠信。

如果連人類自己都只追求效率，那麼問題便不再只是 AI 的問題。

周華山

《是非心理學7》