AI News

チリ、Latam-GPTのローンチによりAIの言語の壁を打破

グローバル・サウス(Global South)の技術的自立における画期的な動きとして、チリは、ラテンアメリカの言語的な複雑さと文化的背景を習得するために特別に設計された初のオープンソースの大規模言語モデル(Large Language Model: LLM)であるLatam-GPTを正式にローンチした。この発表は今週火曜日、サンティアゴにあるチリ国営放送(TVN)のスタジオで行われ、ガブリエル・ボリッチ大統領と科学界の主要人物が出席した。

国立人工知能センター(National Center for Artificial Intelligence: CENIA)が、ラテンアメリカ開発銀行(CAF)およびアマゾン ウェブ サービス(AWS)と協力して開発したLatam-GPTは、米国中心の技術の受動的な消費から能動的な創造への戦略的な転換を象徴している。500億のパラメータを持ち、8テラバイトを超える地域のデータでトレーニングされたこのモデルは、GPT-4やGeminiのような世界的な巨人に内在する歴史的なバイアスを修正し、サザン・コーン(Southern Cone)の「ヴォセオ(voseo)」、アンデス山脈の先住民族のルーツ、そして地域の社会政治的な現実を真に理解するツールを提供することを目指している。

課題:北部に偏ったAI

長年、ラテンアメリカの研究者や企業は、主流のAIモデルの限界に取り組んできた。ChatGPTのようなシステムはスペイン語に堪能だが、その基礎となるロジックや文化的な知識ベースは、圧倒的に英語のデータとグローバル・ノース(Global North)の世界観に由来している。

CENIAの研究者たちは、地元の文学、歴史、さらには祝日について尋ねられた際、グローバルなモデルは頻繁にハルシネーション(Hallucination:幻覚)を起こしたり、一般的で型にはまった回答を提供したりすることを強調した。例えば、標準的なモデルは、チリの「9月18日」(独立記念日のお祝い)のような日付の文化的な重みを認識できなかったり、ポンチョを着て山を背景にした男性といった、地域の都市的な近代性を無視した風刺画に頼ったラテンアメリカ人の画像を生成したりすることがよくある。

「我々はテーブルについているのであって、メニューに載っているのではない」と、ボリッチ大統領はローンチの際、Latam-GPTは主権の問題であると強調して述べた。「独自のモデルを開発しなければ、デジタル時代において文化的なアイデンティティを失い、我々が何者であるかを理解しないツールに依存し続けるリスクがある」

内部構造:技術アーキテクチャとトレーニング

Latam-GPTは、兆単位のパラメータを持つモデルと生のサイズで競うのではなく、データの質と専門性によって差別化を図っている。このモデルは、効率性と地域の関連性のために設計された、文化的で密度の高いシステムとして機能する。

  • パラメータ数: 500億
  • トレーニングコーパス: 8テラバイトのテキストデータ(数百万冊の本に相当)
  • データソース: 20のラテンアメリカ諸国とスペインからの政府アーカイブ、学術論文、地元の文学、ウェブデータを含む260万件の文書を厳選して混合
  • 主な貢献国: ブラジルが最大のデータセット(685,000件の文書)を提供し、次いでメキシコ(385,000件)、スペイン(325,000件)となっている。

初期のトレーニングは、200万ドルのクレジット付与を受けてAWSのクラウドインフラを使用して実施された。しかし、Latam-GPTのロードマップには、大幅なハードウェアのアップグレードが含まれている。将来のイテレーションは、最新のNVIDIA H200 GPUを搭載したタラパカ大学の新しいスーパーコンピューティングクラスターでトレーニングされる予定である。この1,000万ドルの投資は、地域の計算能力における大きな飛躍を意味し、モデルの維持と進化が確実にラテンアメリカの国境内にとどまるようにするものである。

比較分析:Latam-GPT 対 グローバル・ジャイアント

以下の比較は、Latam-GPTが現在市場をリードしている支配的なクローズドソースモデルに対して、どのように位置づけられているかを示している。

特徴 グローバルな商用LLM(例:GPT-4、Gemini) Latam-GPT
主な焦点 汎用、グローバル・ノース中心 ラテンアメリカの文化、歴史、方言
ライセンス形式 クローズド / プロプライエタリ オープンソース(修正のためのアクセスが可能)
文化的ニュアンス 地域のトピックに関する高いハルシネーション率 地域の文脈やスラングに対する高い忠実度
データ主権 データは米国/欧州のデータセンターに存在 データのガバナンスにおいて地域の主権を優先
導入コスト スタートアップにとって高いAPIコスト ローカルホスティング用の無料の重み(Weights)が利用可能
言語範囲 標準的なスペイン語/ポルトガル語 地域の方言 + 先住民族言語(ロードマップ)

公共政策と教育のためのツール

Latam-GPTの背後にある主要な推進力の一つは、公共セクターでの活用である。「ブラックボックス」として機能する商用モデルとは異なり、Latam-GPTのオープンな性質により、政府は機密性の高い市民データを扱うために、独自のインフラ内で安全に導入することができる。

科学・技術・知識・イノベーション省は、このモデルが以下の目的で使用されることを想定している:

  1. 教育カリキュラムの最適化: 地元の歴史や文学を正確に参照するチュータリングシステムの構築。
  2. リーガルテック(Legal Tech): 一般的なAIの回答に混じりがちな米国のコモン・ロー(慣習法)ではなく、ラテンアメリカの大陸法に特化した判例を用いて弁護士や裁判官を支援する。
  3. ヘルスケア: 構造化されていない地域のデータを処理することにより、公立病院のリソース配分を管理する。

「これは単なるチャットボットのことではない」とCENIAのディレクター、アルバロ・ソト氏は説明した。「これは基礎となるインフラだ。モデルの重みを公開することで、コロンビアのスタートアップ、アルゼンチンの大学、あるいはペルーの政府機関が、外国の巨大技術企業に『通行料』を支払うことなく、専門的なアプリケーションを構築できるようにしているのだ」

デジタル主権とオープンソースの哲学

Latam-GPTをオープンソースにするという決定は、重要な差別化要因である。これは、地域のデータが国際的な企業によって収集され、プロプライエタリなモデルのトレーニングに使用された後、その地域に売り戻されるという「データの砂漠(Data Desert)」現象に対処するものである。

ベースモデルへのアクセスを民主化することで、CENIAはイノベーションのエコシステムが刺激されることを期待している。スタートアップ企業は、Llama 3やGPT-4のようなモデルを微調整するコストの数分の一で、ターゲット言語における優れたベースラインパフォーマンスを維持しながら、チリの鉱山規制やブラジルのアグリテックなどの特定の業種に合わせてLatam-GPTを微調整できるようになった。

将来のロードマップ:先住民族言語の統合

現在のバージョンはスペイン語とポルトガル語に優れているが、プロジェクトには包括性に向けた野心的なロードマップがある。開発チームは、マプチェ語(マプドゥングン)、ケチュア語、グアラニー語、アイマラ語を含む先住民族言語のデータセットの組み込みに積極的に取り組んでいる。

この取り組みは、これらの言語のデジタル化されたテキストが不足しているため(低リソース言語)、技術的に困難である。しかし、人類学者や先住民族コミュニティと提携することで、CENIAはこれらの言語をデジタルで保存し、AI革命から除外された文化を脅かす「デジタル絶滅」を防ぐことを目指している。

結論

Latam-GPTのローンチは、チリとラテンアメリカを世界のAIマップにしっかりと刻み込んだ。これは、この地域が技術革命の傍観者であることを拒否するという宣言である。世界最大のモデルが持つ生の推論能力にはまだ及ばないかもしれないが、Latam-GPTは、文化的な精度とデータ主権がパラメータ数と同じくらい価値があることを証明している。タラパカ大学のスーパーコンピューターでモデルが成熟するにつれ、それは新世代のラテンアメリカのイノベーターにとってのデジタルバックボーン(基盤)となることを約束している。

フィーチャー