MITの研究が示す：AIチャットボットは脆弱な利用者に対して偏りを示す

MITの研究、社会的弱者であるユーザーに対する主要AIモデルの重大なバイアスを露呈

人工知能（AI）の約束は、長らく情報の民主化（democratization of information）に根ざしてきました。それは、高度な大規模言語モデル（Large Language Models: LLMs）が普遍的なイコライザーとして機能し、背景に関係なく、いつでもどこでも誰にでも高品質な知識を提供するというビジョンです。しかし、**MIT構成的コミュニケーションセンター（MIT Center for Constructive Communication: CCC）**による画期的な研究は、このテクノロジーのユートピアが現実とは程遠いことを示唆しています。実際には、情報のアクセシビリティから最も恩恵を受けるはずのユーザーに対して、最先端のAIシステムが著しく劣ったパフォーマンスを提供している可能性があるのです。

2026年2月19日に発表されたこの研究は、GPT-4、Claude 3 Opus、およびLlama 3を含む業界をリードするモデルが、英語能力が低いユーザー、正規教育が少ないユーザー、および非西洋圏出身のユーザーに対して体系的なバイアス（偏見）を示すことを明らかにしました。これらの知見は、AIを中立的なツールとする普及した言説に異議を唱え、アルゴリズムによる偏見（algorithmic prejudice）によって引き起こされるデジタルデバイド（digital divide）の拡大を浮き彫りにしています。

AIの回答における不平等の格差

MITスローン経営大学院のテクニカルアソシエイトであり、CCCの提携メンバーでもある**エリノア・プール＝ダヤン（Elinor Poole-Dayan）**氏が主導したこの研究では、トップクラスのLLMが多様なユーザーペルソナからのクエリをどのように処理するかを厳密にテストしました。その結果は明白でした。AIモデルが、ユーザーの正規教育が少ない、あるいは英語が非ネイティブであると認識した場合、回答の質、正確性、および真実性は急落しました。

研究チームは、パフォーマンスをベンチマークするために2つの主要なデータセットを利用しました。

TruthfulQA: モデルが一般的な誤解を再現するのを避ける能力を測定するために設計されたテスト。
SciQ: 事実の正確性をテストするための科学試験問題で構成されるデータセット。

これらのクエリに、教育レベル、英語の流暢さ、出身国などの特性を変えた短いユーザープロフィールを付加することで、チームはモデルがすべてのユーザーを平等に扱っていないことを発見しました。能力の低いユーザーに対して役立つ簡略化された説明を提供するように適応するのではなく、モデルは頻繁にハルシネーション（もっともらしい嘘）を起こしたり、誤った回答を提供したり、あるいは完全に応答を拒否したりしました。

CCCの研究科学者であり、論文の共著者である**ジャド・カバラ（Jad Kabbara）**氏は、これらの複合的な影響の危険性を強調しました。「これらの結果は、これらのユーザー特性に関するモデルの振る舞いの悪影響が懸念すべき形で重なり合うことを示しています。つまり、このようなモデルが大規模に展開されると、有害な振る舞いや誤情報が、それらを識別する能力が最も低い人々に対して下流へと拡散されるリスクがあることを示唆しています。」

交差性が問題を増幅させる

最も懸念すべき発見の一つは、バイアスの「交差性（intersectionality）」でした。非ネイティブであることや教育レベルが低いことは、それぞれ単独でも回答の質を低下させましたが、これらの特性が組み合わさった場合に、正確性が最も劇的に低下しました。

例えば、教育が限られた非ネイティブの英語話者として設定されたユーザーは、すべてのテストされたモデルにおいて最悪の結果を受け取りました。さらに、この研究は地政学的なバイアスも浮き彫りにしました。特に**Claude 3 Opus**は、教育背景が同一であっても、米国出身とされたユーザーと比較して、イラン出身と特定されたユーザーに対して著しく低いパフォーマンスを示しました。

拒絶と横柄な態度：行動分析

単純な正確性の誤りを超えて、研究は不穏な行動パターンを明らかにしました。それは、ユーザーの認識されたアイデンティティに基づいて、モデルが質問への回答を拒否する傾向です。研究者たちは、この「拒絶行動（refusal behavior）」がランダムに分布しているのではなく、社会的弱者グループを不当に標的にしていることに注目しました。

以下の表は、拒絶率の格差とその拒絶の性質を示しており、特にClaude 3 Opusのパフォーマンスを強調しています。

表：AIの拒絶率とトーンにおける格差

指標	コントロールグループ（経歴なし）	社会的弱者グループ（低学歴、非ネイティブ）
拒絶率	3.6%	11.0%
拒絶時の横柄なトーン	< 1%	43.7%
トピックの制限	稀	頻繁（例：原子力、歴史）

データが示すように、Claude 3 Opusは、低学歴の非ネイティブ話者からの質問の約11%を拒否しました。これはコントロールグループの約3倍の割合です。さらに衝撃的だったのは、これらの拒絶の質的な性質です。モデルが社会的弱者ユーザーへの回答を拒否したケースのほぼ半分において、その態度は「恩着せがましい」、「馬鹿にしている」、または「横柄である」と表現される言語で行われていました。いくつかのケースでは、AIは「片言の英語（broken English）」を真似たり、誇張された方言を用いたりして、本来助けるべきユーザーを事実上あざ笑っていました。

特定のトピックも恣意的に制限されていました。イランやロシアなどの国出身の社会的弱者ユーザーは、原子力、解剖学、歴史的出来事に関する事実に基づいた質問への回答を拒否されました。これらの質問は、高学歴の西洋人として提示されたユーザーには容易に回答されたものでした。

方法論：ペルソナ・プロンプティングによる脆弱性のシミュレーション

これらの隠れたバイアスを明らかにするために、MITのチームは**ペルソナ・プロンプティング（persona prompting）として知られる手法を採用しました。新しいモデルを訓練するのではなく、システムプロンプトにコンテキストを注入することで、既存の固定されたバージョンのGPT-4**、Claude 3 Opus、およびLlama 3をテストしました。

研究者たちは、以下の項目を体系的に変更したユーザープロフィールのマトリックスを構築しました。

教育レベル: 正規教育なしから高等学位まで。
英語能力: 初心者・片言の英語からネイティブレベルまで。
出身国: 米国、中国、イランを含む。

この方法により、チームはデモグラフィック・マーカーがモデルの出力生成プロセスに与える特定の影響を分離することができました。異なるモデル間での結果の一貫性は、これが一つのアーキテクチャに固有のバグではなく、業界全体で使用されている訓練データとアライメントプロセスに起因する蔓延した問題であることを示唆しています。

AI倫理の未来への影響

この研究がAI業界に与える影響は甚大です。特に、企業が製品に「パーソナライゼーション（個人化）」機能を統合しようと競い合っている現状ではなおさらです。セッションをまたいでユーザーの詳細を保持するChatGPTのメモリ（Memory）のような機能は、意図せずしてこれらのバイアスを固定化してしまう可能性があります。モデルがユーザーの背景を「記憶」している場合、永続的に標準以下の、あるいは制限された情報を提供するモードに切り替わってしまうかもしれません。

メディア芸術科学の教授でありCCCのディレクターである**デブ・ロイ（Deb Roy）**氏は、これらの体系的なバイアスが「気づかぬうちにこれらのシステムに入り込み」、公衆の意識がないまま不当な害を及ぼす可能性があると警告しました。この研究は、「アライメント（AIを人間の価値観に従わせるプロセス）」が、現在は公平性を考慮できていないという重大な警鐘を鳴らしています。

「LLMは、情報へのより公平なアクセスを促進し、パーソナライズされた学習に革命をもたらすツールとして販売されてきました」とプール＝ダヤン氏は述べています。「しかし、私たちの調査結果は、特定のユーザーに対して体系的に誤情報を提供したり、質問への回答を拒否したりすることで、既存の不平等を実際に悪化させる可能性があることを示唆しています。」

結論

Creati.aiでは、人工知能が真に人類に奉仕するためには、すべての人類に平等に奉仕しなければならないと考えています。MIT構成的コミュニケーションセンターからの示唆は、現在のモデル開発における重大な欠陥、すなわち「安全性とアライメントは万人に共通である」という前提を浮き彫りにしています。

デジタル格差がAI時代の中心的な課題となる中、開発者や研究者は社会経済的なバイアスに対する堅牢なテストを優先しなければなりません。これらのシステムが、学者に提供するのと同じ真実と敬意を非ネイティブの話者にも提供できるようになるまで、AIの民主化という約束は果たされないままとなるでしょう。