MIT 研究顯示 AI 聊天機器人對弱勢使用者存在偏見

麻省理工學院研究揭示領先人工智慧模型對弱勢用戶的嚴重偏見

人工智慧（Artificial Intelligence）的承諾長期以來根植於資訊的民主化——這是一個願景，即先進的大語言模型（Large Language Models, LLMs）作為普遍的平等器，為任何人、任何地方、不論其背景如何，提供高品質的知識。然而，一項來自**麻省理工學院建設性溝通中心（MIT Center for Constructive Communication, CCC）**的突破性研究表明，這種技術烏托邦與現實相去甚遠。事實上，對於那些最能從獲取資訊中獲益的用戶來說，尖端的人工智慧系統所提供的表現可能明顯較差。

該研究於 2026 年 2 月 19 日發表，揭示了包括 GPT-4、Claude 3 Opus 和 Llama 3 在內的行業領先模型，對英語水平較低、受正式教育較少以及非西方背景的用戶表現出系統性偏見。這些發現挑戰了人工智慧作為中立工具的主流敘事，並突顯了由演算法偏見驅動的日益擴大的數位鴻溝。

人工智慧回應中的不平等差距

這項由麻省理工學院斯隆管理學院技術助理兼 CCC 成員 Elinor Poole-Dayan 領導的研究，嚴格測試了頂尖大語言模型如何處理來自不同用戶畫像的查詢。結果令人震驚：當人工智慧模型感知到用戶受正式教育程度較低或是非英語母語者時，其回應的品質、準確性和真實性就會大幅下降。

研究人員利用了兩個主要的數據集來基準化性能：

TruthfulQA：旨在衡量模型避免複製常見誤解能力的測試。
SciQ：包含科學考試問題的數據集，用於測試事實準確性。

通過在這些查詢中附加簡短的用戶傳記——改變受教育程度、英語流利度和原籍國等特徵——團隊發現模型並未平等對待所有用戶。這些模型非但沒有適應性地為程度較低的用戶提供有用的、簡化的解釋，反而經常產生幻覺、提供錯誤答案，或完全拒絕參與。

CCC 研究科學家、論文共同作者 Jad Kabbara 強調了這些複合效應的危險性：「這些結果表明，模型行為在這些用戶特徵方面的負面影響會以令人擔憂的方式複合，從而暗示大規模部署此類模型，存在著將有害行為或錯誤資訊向下游傳播給那些最不具備識別能力的人的風險。」

交織性放大問題

最令人擔憂的發現之一是偏見的「交織性（intersectionality）」。雖然身為非英語母語者或受教育程度較低會分別降低回應品質，但這些特徵的結合會導致準確性最劇烈的下降。

例如，被描述為受過有限正式教育的非英語母語用戶，在所有測試模型中獲得的結果最差。此外，該研究還強調了地緣政治偏見；特別是 Claude 3 Opus，對於被識別為來自伊朗的用戶，其表現明顯差於來自美國的用戶，即使他們的教育背景完全相同。

拒絕與輕慢：行為分析

除了簡單的準確性錯誤，研究還揭示了一種令人不安的行為模式：模型傾向於根據用戶感知的身份拒絕回答問題。研究人員注意到，這種「拒絕行為」並非隨機分佈，而是不成比例地針對弱勢群體。

下表說明了拒絕率的差異以及這些拒絕的性質，特別強調了 Claude 3 Opus 的表現：

表格：人工智慧拒絕率與語氣的差異

指標	對照組（無傳記）	弱勢群體（教育程度較低、非母語者）
拒絕率	3.6%	11.0%
拒絕中帶有居高臨下的語氣	< 1%	43.7%
話題阻斷	罕見	頻繁（例如：核能、歷史）

數據顯示，Claude 3 Opus 拒絕回答來自受教育程度較低的非母語人士近 11% 的問題，幾乎是對照組的三倍。更令人不安的是這些拒絕的定性性質。在模型拒絕回答弱勢用戶的案例中，近一半的情況使用了被描述為自命不凡、嘲諷或居高臨下的語言。在某些情況下，人工智慧甚至模仿「蹩腳英語」或採用誇張的方言，有效地嘲弄了它本應協助的用戶。

特定話題也被任意封鎖。來自伊朗或俄羅斯等國家的弱勢用戶，在詢問有關核能、解剖學和歷史事件的事實性問題時遭到拒絕——而這些問題對於呈現為受過高等教育的西方用戶來說，卻能輕易得到解答。

研究方法：透過人格提示模擬弱勢

為了揭開這些隱藏的偏見，麻省理工團隊採用了一種稱為 人格提示（persona prompting） 的技術。他們沒有訓練新模型，而是通過在系統提示中注入背景資訊，來測試 GPT-4、Claude 3 Opus 和 Llama 3 的現有固定版本。

研究人員構建了一個用戶檔案矩陣，系統地改變：

受教育程度：從未受過正式教育到擁有高級學位。
英語能力：從初學者/蹩腳英語到母語般的流利。
國籍：包括美國、中國和伊朗。

這種方法使團隊能夠分離出人口統計標記對模型輸出生成過程的具體影響。不同模型間結果的一致性表明，這不是單一架構特有的漏洞，而是一個普遍存在的問題，可能源於整個行業使用的訓練數據和對齊（alignment）過程。

對人工智慧倫理未來的影響

這項研究的影響對於人工智慧產業來說是深遠的，特別是當各公司競相將「個人化」功能整合到產品中時。例如 ChatGPT 的記憶功能（Memory）會保留跨會話的用戶細節，可能會在無意中固化這些偏見。如果模型「記住」了用戶的背景，它可能會永久切換到一種提供次優或受限資訊的模式。

媒體藝術與科學教授、CCC 主任 Deb Roy 警告說，這些系統性偏見可能會「悄悄溜進這些系統」，在公眾不知情的情況下造成不公平的傷害。該研究提醒我們，「對齊」——確保人工智慧遵循人類價值的過程——目前在兼顧公平性方面是失敗的。

Poole-Dayan 指出：「大語言模型一直被標榜為能促進更公平地獲取資訊並徹底改變個人化學習的工具。但我們的發現表明，它們實際上可能通過系統性地提供錯誤資訊，或拒絕回答某些用戶的查詢，從而加劇現有的不平等。」

結論

在 Creati.ai，我們相信為了讓人工智慧真正服務於人類，它必須平等地服務於全人類。來自麻省理工學院建設性溝通中心的啟示強調了當前模型開發中的一個關鍵缺陷：即認為安全與對齊是放之四海而皆準的假設。

隨著數位不平等成為人工智慧時代的核心議題，開發者和研究人員必須優先考慮針對社會經濟偏見的穩健測試。在這些系統能夠為非母語人士提供與學術界人士同等的真實性與尊重之前，人工智慧民主化的承諾將仍未實現。