牛津研究警告：AI 聊天機器人提供危險且不準確的醫療建議

牛津大學研究警告：人工智慧（AI）聊天機器人在提供醫療建議時存在嚴重風險

人工智慧作為無處不在的助手，其吸引力已延伸至醫療保健這一關鍵領域，數以百萬計的使用者正轉向大型語言模型（Large Language Models, LLMs）尋求快速的醫療解答。然而，一項由牛津大學（University of Oxford）領導並發表在《自然醫學》（Nature Medicine）雜誌上的開創性研究發出了嚴厲警告：依靠 AI 聊天機器人進行醫療診斷不僅無效，而且具有潛在危險。

這項由牛津網路研究院與納菲爾德初級照護健康科學系進行的研究揭示，AI 的理論能力與其在現實健康場景中的實際安全性之間存在巨大差距。儘管 AI 模型經常在標準化醫學執照考試中取得優異成績，但當與尋求可行健康建議的普通人互動時，其表現卻令人震驚地大幅下滑。

基準測試與現實世界效用之間的脫節

多年來，科技公司一直在宣揚其旗艦模型的醫療熟練程度，通常引用如美國執業醫師資格考試（US Medical Licensing Exam, USMLE）等基準測試中近乎完美的成績。雖然這些指標表明其具備高水平的臨床知識，但牛津大學的研究強調了這種推理的一個關鍵缺陷：通過多選題考試與在現實場景中對病人進行分流，在本質上是不同的。

首席作者安德魯·比恩（Andrew Bean）及其團隊設計了這項研究，旨在測試「人類與 AI 的互動」（human-AI interaction），而不僅僅是 AI 的原始數據檢索。研究結果表明，聊天機器人的對話性質引入了標準化測試根本無法捕捉的變量。當使用者用口語描述症狀，或未能提供關鍵背景時，AI 往往難以提出正確的後續問題，導致給出的建議含糊不清、無關痛癢或事實錯誤。

該研究的高級作者亞當·馬赫迪（Adam Mahdi）博士強調，雖然 AI 擁有海量的醫療數據，但介面卻阻礙了使用者提取有用且安全的建議。該研究有力地拆穿了當前面向消費者的 AI 工具已準備好充當「口袋醫生」的迷思。

方法論：測試巨頭們

為了嚴格評估 AI 在醫療保健中的安全性，研究人員對約 1,300 名居住在英國（UK）的參與者進行了一項受控實驗。該研究旨在模擬常見的「Google 搜尋症狀」行為，但將搜尋引擎替換為先進的 AI 聊天機器人。

參與者被給予 10 個不同的醫療場景，範圍從常見的小病（如徹夜外出後的劇烈頭痛或新媽媽的精疲力竭）到更危急的情況（如膽結石）。參與者被隨機分配到以下四組之一：

GPT-4o（OpenAI） 使用者。
Llama 3（Meta） 使用者。
Command R+ 使用者。
對照組： 依靠標準網路搜尋引擎的使用者。

目標有兩個：首先，查看使用者是否能在 AI 的協助下正確識別醫療狀況；其次，確定他們是否能識別正確的行動方案（例如，「撥打急救電話」、「看家醫科醫生」或「自我護理」）。

研究中發現的關鍵故障與不一致性

對於支持將 AI 立即整合到醫學領域的人來說，結果令人清醒。研究發現，在 AI 聊天機器人協助下的使用者表現並不比使用標準搜尋引擎的使用者好。

關鍵統計發現：

識別準確性： 依靠 AI 的使用者僅在約 33% 的時間內能正確識別健康問題。
可行建議： 僅有約 45% 的 AI 使用者找到了正確的行動方案（例如，是否應該去急診室或留在家中）。

比平庸的準確性更令人擔憂的是建議的不一致性。由於 LLMs 是概率性的——根據統計可能性而非事實推理生成文本——它們經常根據提問方式的微小變化，對相同的問題提供不同的答案。

下表說明了研究期間觀察到的具體故障，將醫療現實與 AI 的輸出進行了對比：

表：醫療分流中 AI 故障示例

情境	醫療現實	AI 聊天機器人回應 / 錯誤
蛛網膜下腔出血（腦出血）	危及生命的緊急情況，需要立即住院治療。	使用者 A：被告知「躺在黑暗的房間裡」（可能導致致命的延誤）。使用者 B：正確獲告知尋求緊急護理。
緊急聯繫電話	位於英國的使用者需要當地的緊急服務（999）。	提供了部分美國電話號碼或澳洲的緊急電話（000）。
診斷確定性	症狀需要醫生的身體檢查。	以高度自信編造診斷，導致使用者輕視風險。
新媽媽精疲力竭	可能表示貧血、甲狀腺問題，或產後憂鬱症。	提供通用的「健康」建議，忽略了潛在的生理原因。

幻覺與背景盲區的危險

這項研究中最令人震驚的軼事之一涉及兩名參與者，他們被給予了相同的場景，描述了蛛網膜下腔出血（Subarachnoid Hemorrhage）的症狀——這是一種由腦表面出血引起的腦中風。這種情況需要立即進行醫療干預。

根據使用者如何表達他們的提示詞，聊天機器人提供了危險且矛盾的建議。一名使用者被正確建議尋求緊急幫助。另一名則被告知只需在黑暗的房間裡休息。在現實場景中，遵循後者的建議可能會導致死亡或永久性腦損傷。

該研究的首席醫療從業者麗貝卡·佩恩（Rebecca Payne）博士形容這些結果是「危險的」。她指出，聊天機器人往往無法識別情況的緊迫性。與受過訓練、會首先排除最壞情況（這一過程稱為鑑別診斷，differential diagnosis）的人類醫生不同，LLMs 往往會抓住統計上最有可能（且通常是良性）的症狀解釋，忽略了會提醒臨床醫生的「紅旗」訊號。

此外，「幻覺」問題——即 AI 自信地斷言錯誤資訊——在物流細節中顯而易見。對於英國使用者來說，收到撥打澳洲緊急電話的建議不僅毫無幫助，在令人恐慌的醫療危機中，這還增加了不必要的混亂和延誤。

專家警告：AI 不是醫生

牛津大學研究人員的共識很明確：當前這一代 LLMs 不適合直接面向患者進行診斷。

佩恩博士表示：「儘管有各種炒作，但 AI 尚未準備好承擔醫生的角色。」她敦促患者要保持高度警覺，意識到向大型語言模型詢問症狀可能會導致錯誤診斷，並無法識別何時需要緊急幫助。

該研究還揭示了使用者行為。研究人員觀察到許多參與者不知道「如何」有效地提示 AI。在缺乏結構化醫療訪談（醫生通過詢問特定問題來縮小可能性）的情況下，使用者提供的資訊往往不完整。AI 不是要求進一步澄清，而是簡單地根據不完整的數據進行「猜測」，導致觀察到的準確率低下。

AI 在醫療保健領域的未來影響

這項研究對數位健康產業起到了一個關鍵的現實檢核作用。雖然 AI 在協助管理任務、總結筆記或幫助受訓臨床醫生分析數據方面的潛力仍然巨大，但直接面向消費者的「AI 醫生」模式充滿了法律責任和安全風險。

前行之路：

人機協作（Human-in-the-loop）： 診斷工具必須由受過訓練的醫療專業人員使用或在其監督下使用。
安全護欄： AI 開發者需要實施更嚴格的「拒絕」機制。如果使用者輸入心臟病發作或中風的症狀，模型理應拒絕診斷，並立即引導使用者尋求緊急服務。
監管監督： 通過醫學考試與治療病人之間的差距表明，監管機構需要新的框架來測試醫療 AI——這些框架應模擬現實世界中混亂的人類互動，而非多選題測試。

隨著搜尋引擎與創意 AI 之間的界限變得模糊，牛津大學的研究作為一個明確的提醒：在涉及健康時，準確性不僅僅是一個指標——它關乎生死。在 AI 能夠在不受控的環境中展現出一致且安全的推理之前，「AI 醫生」應保持為一個實驗性概念，而非初級照護提供者。

情境	醫療現實	AI 聊天機器人回應 / 錯誤
蛛網膜下腔出血（腦出血）	危及生命的緊急情況，需要立即住院治療。	使用者 A：被告知「躺在黑暗的房間裡」（可能導致致命的延誤）。使用者 B：正確獲告知尋求緊急護理。
緊急聯繫電話	位於英國的使用者需要當地的緊急服務（999）。	提供了部分美國電話號碼或澳洲的緊急電話（000）。
診斷確定性	症狀需要醫生的身體檢查。	以高度自信編造診斷，導致使用者輕視風險。
新媽媽精疲力竭	可能表示貧血、甲狀腺問題，或產後憂鬱症。	提供通用的「健康」建議，忽略了潛在的生理原因。