Microsoft、Maia 200を発表：コスト削減のためのカスタムAI推論チップ

効率性の新時代（A New Era of Efficiency）：Microsoftによる推論への戦略的転換

人工知能の経済性を再構築するための決定的な動きとして、Microsoftは大規模な推論（Inference）ワークロード専用に設計されたカスタムAIアクセラレータ（AI accelerator）であるMaia 200を正式に発表しました。今週発表されたこのチップは、過去3年間に業界を支配してきたトレーニング中心の焦点を超え、Microsoftの垂直統合（Vertical integration）戦略における重要な飛躍を象徴しています。1,400億個のトランジスタを搭載し、TSMCの3nmプロセスで構築された特殊なアーキテクチャを持つMaia 200は、単なるハードウェアのアップグレードではなく、生成AI（Generative AI）サービスの提供に伴う急増するコストを削減するための重要なレバーとして位置づけられています。

この発表は、業界全体の広範なシフトを強調しています。GPT-5.2のような基盤モデル（Foundational models）が普及するにつれ、計算負荷はこれらの巨大なモデルのトレーニングから、何百万人ものユーザーに対して毎日トークンを生成する「サービング（提供）」へと移行しています。Maia 200はこの課題に正面から取り組み、現代の推論に必要な低精度演算に最適化された10 PetaFLOPSの演算性能を提供します。チップ設計を自社内で行うことで、Microsoftは長期的な営業利益率をサードパーティ製シリコンベンダーの価格決定権から切り離すことを目指しており、これは同社のAIインフラストラクチャ・ロードマップにおける成熟期を示唆しています。

シリコンの内部：アーキテクチャと仕様

Maia 200は、半導体エンジニアリングの巨人です。最先端のTSMC 3nmプロセスノードで製造されたこのチップには、約1,400億個のトランジスタが詰め込まれており、その密度により、演算ロジックとメモリロジックのこれまでにないオンダイ統合が可能になりました。トレーニングと推論の能力のバランスを取らなければならない汎用GPUとは異なり、Maia 200は後者（推論）に対して徹底的に最適化されています。

メモリ階層と帯域幅

AI推論における最も重要なボトルネックの一つは、メモリ帯域幅（Memory bandwidth）、つまりデータを演算コアに移動させる速度です。MicrosoftはMaia 200に216 GBのHBM3e（広帯域メモリ）を搭載し、驚異的な7 TB/sのメモリ帯域幅を実現しました。この巨大なフレームバッファにより、最大級の大型言語モデル（LLM）であっても、少数のチップクラスターの高速メモリ内に完全に収めることができ、レイテンシを大幅に短縮します。

データの移動をさらに最小限に抑えるため、アーキテクチャには272 MBのオンチップSRAMが含まれています。これは巨大なキャッシュとして機能し、頻繁にアクセスされる重みやアクティベーションデータをプロセッシングコアの近くに保持します。メモリサブシステムは、トランスフォーマーベースのモデル特有のトラフィックパターンを処理するように設計されており、演算ユニットがデータ待ちでアイドル状態になることを防ぎます。

演算性能

Maia 200の最大の注目点は、FP4（4ビット浮動小数点）精度で10 PetaFLOPSを超えるパフォーマンスを提供できることです。この低精度（特にFP4とFP8）への重点化は、戦略的な設計選択です。研究によれば、推論タスクはモデルの出力品質を低下させることなく低精度で実行できることが示されています。FP4に注力することで、Microsoftは従来のFP16実装を圧倒するスループットを達成しました。

より高い精度が必要な場合でも、このチップはFP8で約5 PetaFLOPSを実現し、テキスト生成から複雑な推論チェーンまで、幅広い生成タスクを処理できる汎用性を備えています。

競合他社との比較（ベンチマーク）

カスタムクラウドシリコンの競争が激しい中で、MicrosoftはMaia 200を、生のスループットと効率性におけるリーダーとして位置づけています。ソフトウェアエコシステムの違いにより、NVIDIAの市販シリコンとの直接比較は複雑ですが、MicrosoftはハイパースケーラーのライバルであるAmazonやGoogleに対するベンチマークを提供しています。

Microsoftの技術公開資料によると、Maia 200は主要なクラウド競合他社からの最新製品を大幅に上回っています。このチップの設計思想は「1ドルあたりのパフォーマンス」を優先しており、これはAzureのAIサービスの収益性に直接影響を与える指標です。

表：ハイパースケーラーAIアクセラレータの比較仕様

機能	Microsoft Maia 200	Amazon Trainium3	Google TPU v7
プロセス技術	TSMC 3nm	N/A	N/A
FP4ピーク性能	10 PetaFLOPS	~2.5 PetaFLOPS	N/A
FP8ピーク性能	~5 PetaFLOPS	~2.5 PetaFLOPS	~4.6 PetaFLOPS
HBM容量	216 GB HBM3e	144 GB	192 GB
メモリ帯域幅	7 TB/s	4.9 TB/s	7.4 TB/s
トランジスタ数	1,400億個	N/A	N/A

データによれば、Maia 200は4ビット精度のパフォーマンスにおいて決定的な優位性を持っており、AmazonのTrainium3の約3倍のFP4スループットを提供しています。このアドバンテージは、各単語の生成コストが最終利益に直結するGPT-5.2のようなモデルを運用する「トークン経済学」において極めて重要です。

クラウドコンピューティングにおける戦略的意義

Maia 200の導入は単なるハードウェアの発表ではありません。それは、AIセクターを悩ませてきたサプライチェーンの制約からの独立宣言です。自社製シリコンを導入することで、Microsoftは、プレミアム価格と膨大な待機リストを強いてきたNVIDIAへの依存を軽減します。

推論のコスト

Cloud Computingプラットフォームのクライアントにとって、カスタムシリコンへの移行は、より安定し、潜在的に低価格な料金設定を約束します。Microsoftは、Maia 200が前世代のMaia 100と比較して30%優れた1ドルあたりのパフォーマンスを実現すると主張しています。この効率性の向上は、チップの専門的な性質に由来しています。つまり、汎用GPUに存在する、トレーニングやグラフィックスレンダリングに必要な機能による「シリコン税」を負っていないのです。

インフラストラクチャの統合

Maia 200は、Microsoftの既存のAzureインフラストラクチャにシームレスに組み込まれるように設計されています。これは、2.8 TB/sの双方向帯域幅が可能な統合ネットワークインターフェースカード（NIC）を備えた、カスタムのイーサネットベースのネットワークプロトコルを利用しています。これにより、単一のデバイスに収まりきらないほど巨大なモデルを実行するために必要な、低レイテンシでの数千個のMaiaチップ間の通信が可能になります。

これらのチップは、Maia 100と共に導入されたMicrosoftの「Sidekick」システムによって液冷されるカスタムサーバーラックに収容されています。この熱管理ソリューションにより、チップは競合する一部の市販シリコンの半分である750Wの熱設計電力（TDP）で動作することができ、Azureデータセンターのエネルギーフットプリントをさらに削減します。

展開とエコシステムのサポート

Microsoftはすでに、アイオワ州デモインの米国中部データセンターリージョンでMaia 200クラスターの展開を開始しており、アリゾナ州フェニックスの米国西部3リージョンへの拡大も計画されています。この展開の直接の受益者は、Microsoft内部のワークロードと主要なパートナーです。

主な展開分野：

OpenAIの統合： このチップは、新しく参照されたGPT-5.2を含むOpenAIの最新モデルに明示的に最適化されています。これにより、ChatGPTおよびAPIユーザーは、Microsoftにとってより低い運用コストで、より迅速な応答を受け取ることができます。
Microsoft 365 Copilot： Copilotにクエリを送信する何百万人ものOfficeユーザーによって生成される膨大な推論負荷はMaia 200に移行され、同社のGPUフリートへの圧力を緩和します。
合成データ生成： Microsoft Superintelligenceチームは、このチップの高いスループットを利用して膨大な量の合成データを生成しており、それが次世代モデルのトレーニングに使用されることで、AI開発の好循環を生み出しています。

開発者をサポートするため、MicrosoftはPyTorchの完全な統合とTritonコンパイラを含むMaia SDKをプレビュー公開しています。このソフトウェアスタックは参入障壁を下げるように設計されており、顧客が最小限のコード変更でモデルをMaiaシリコンに移植できるようにします。

今後の展望

Maia 200のリリースは、AI業界の成熟点を示しています。「コストを度外視したトレーニング」の時代は、効率性、消費電力、および総所有コスト（TCO）が成功の主要な指標となる「大規模な推論」の時代へと道を譲りつつあります。

特定の推論ベンチマークにおいてクラスをリードする3nm、1,400億トランジスタのチップを成功裏に提供することで、Microsoftは垂直統合への賭けを正当化しました。**AI Chips**の専門化が進むにつれ、学習のために設計されたハードウェアと、実行のために設計されたハードウェアの区別はより鮮明になっていくでしょう。Azureの顧客とMicrosoftの株主の双方にとって、Maia 200は今後数年間にわたり、人工知能の収益性の高い応用を推進するエンジンとなることを象徴しています。