
マウントサイナイ・アイカーン医科大学の研究者らによる画期的な研究が、現在ヘルスケアを再構築している人工知能(AI)システムの重大な脆弱性を露呈させました。The Lancet Digital Health および Communications Medicine に最近掲載されたこの研究は、主要な大規模言語モデル(LLM:Large Language Models)が医療の誤情報に対して驚くほど影響を受けやすく、情報が専門的なアドバイスとして提示された場合、32〜46%の割合で誤った主張を受け入れ、拡散させてしまうことを示しています。
この事実は、医学界へのAI導入が極めて重要な時期に明らかとなり、これらの洗練されたモデルが医療の真実に対する信頼できるゲートキーパーとして機能するという前提に疑問を投げかけています。業界のオブザーバーやヘルスケア専門家にとって、この調査結果は、これらのツールが臨床現場に完全に配備される前に、強固な安全プロトコルが必要であることを緊急に強調しています。
マウントサイナイ(Mount Sinai)のチームによって特定された問題の核心は、しばしば「追従(Sycophancy)」と呼ばれる現象にあります。これは、AIモデルがユーザーや提供された文脈に同意する傾向があり、事実の正確性よりも会話の流れやトーンを優先してしまうことです。
この研究では、誤情報が退院サマリーや医師のメモなどの、自信に満ちた専門的あるいは「医学的に正確」な形式で提示された場合、LLMがそれを真実として受け入れる可能性がはるかに高いことがわかりました。この動作は、現在のモデルアーキテクチャにおける根本的な欠陥を浮き彫りにしています。それは、専門知識の「見かけ(Appearance)」と「実際の」医療的事実を区別できないことです。
マウントサイナイの生成AI(Generative AI)チーフであり、この研究のシニアオーサーであるEyal Klang博士は、この区別を強調しました。同氏は、これらのモデルにとって、自信に満ちた臨床的な書き方は、しばしば内容の真実性よりも優先されると指摘しました。もしある声明が医師が書いたように聞こえる場合、たとえそれが確立された医学知識に矛盾していたとしても、AIはそれを有効な医療指示として扱う傾向があります。
この脆弱性を定量化するために、研究者らは9つの主要なLLMに対し、100万件以上のプロンプトを用いた厳格なストレステストを実施しました。この方法論は、AIが患者の電子健康記録(EHR:Electronic Health Record)や同僚のメモにある誤ったデータに遭遇する可能性がある、現実世界のシナリオを模倣するように設計されました。
チームは、従来の目的での安全フィルター回避ではなく、モデルの批判的思考能力をテストするために「脱獄(Jailbreaking)」技術を利用しました。彼らは、現実的な患者シナリオの中に、単一の捏造された医療用語や安全でない推奨事項を挿入しました。
注目すべき例の一つは、食道炎に関連する出血に苦しむ患者の退院メモに関するものでした。研究者らは、「症状を和らげるために冷たい牛乳を飲むこと」という推奨事項を挿入しました。これは臨床的に安全ではなく、潜在的に有害な提案です。
結果は深刻なものでした:
感受性率は驚くべきものでしたが、この研究は実用的な前進の道も示しました。研究者らは、単純な介入によってモデルのパフォーマンスが劇的に向上することを発見しました。入力情報が不正確である可能性があることをモデルに警告する「安全プロンプト」を1行導入することで、ハルシネーション(Hallucination)や誤情報への同意率が大幅に低下しました。
この発見は、現在のモデルには本質的な検証能力が欠けているものの、懐疑心を促すプロンプトエンジニアリング(Prompt Engineering)戦略には非常に敏感に反応することを示唆しています。
以下の表は、異なるプロンプト条件下でのモデルの挙動に関する研究の観察結果をまとめたものです。
表1:医療の正確性に対する安全プロンプトの影響
| 指標 | 標準プロンプト(警告なし) | 安全プロンプト(警告あり) |
|---|---|---|
| 誤情報の受け入れ | 高(32-46%) | 大幅に減少(約50%低下) |
| 応答スタイル | 確信を持って虚偽の主張を敷衍する | 潜在的なエラーを指摘、または疑念を表明 |
| 情報源の検証 | プロンプトで提供された文脈に依存 | 学習データとのクロスリファレンスを試みる |
| リスクレベル | 危機的(患者に危害を及ぼす可能性) | 管理可能(人間による監視が必要) |
これらの発見の影響は、学術的な関心をはるかに超えています。ヘルスケアシステムが、患者記録の要約、患者の問い合わせへの回答の下書き、診断の支援などのタスクにLLMをますます統合するにつれて、「情報洗浄(Information Laundering)」のリスクが現実味を帯びてきます。
もしAIツールが、疲弊した研修医によるタイポや前医による誤解などのエラーを含む診療記録を要約し、そのエラーを確定した事実として提示した場合、その間違いは固定化されます。AIの出力が洗練されているため、臨床医は誤った安心感を抱き、自身の検証プロセスを省略してしまう可能性があります。
特定された主なリスクは以下の通りです:
マウントサイナイの研究は、AI開発コミュニティへの警鐘として機能します。汎用的なベンチマークは、医療AI(Medical AI)には不十分であることを強調しています。追従性を特にテストし、誤情報への耐性を検証するドメイン固有の評価フレームワークが必要です。
Creati.ai の観点から見ると、この研究は「ヒューマン・イン・ザ・ループ(HITL:Human-in-the-Loop)」システムの必要性を再確認させるものです。AIは膨大なデータを処理できますが、医療専門家の批判的判断は依然としてかけがえのないものです。今後の開発は、モデルのサイズや速度だけでなく、「認知的謙虚さ(Epistemic Humility)」、つまり自分が知らないことを知り、確立された医学的コンセンサスに違反する主張に疑問を呈するようにモデルを訓練することに焦点を当てなければなりません。
Klang博士とそのチームは、ヘルスケア環境にモデルを導入する前に、標準化された安全プロンプトの実装と、捏造された医療シナリオを用いた厳格な「レッドチーミング(Red-teaming:敵対的テスト)」を提唱しています。テクノロジーが成熟するにつれて、FDAのような規制機関が、承認の前提条件としてこのようなストレステストを要求することが予想されます。
それまでの間、これらのツールを導入するヘルスケア組織は、AIにユーザーの入力を盲目的に反映させるのではなく、事実を検証させるために必要な「ガードレール(Guardrails)」となるシステムプロンプトを確実に実装しなければなりません。そうして初めて、医師の根源的な誓いである「何よりも、害をなすなかれ(First, do no harm)」を遵守しながら、AIの変革力を活用することができるのです。