
對於全球南方(Global South)的技術獨立而言,這是一次具有里程碑意義的舉動,智利正式發布了 Latam-GPT,這是首個專門為掌握拉丁美洲語言細微差別和文化背景而設計的開源大型語言模型(Large Language Model,LLM)。發布會於本週二在聖地亞哥的智利國家電視台(TVN)演播室舉行,總統加夫列爾·博里奇(Gabriel Boric)以及科學界的關鍵人物出席了會議。
由國家人工智慧中心(National Center for Artificial Intelligence,CENIA)與拉丁美洲開發銀行(CAF)和亞馬遜網路服務(Amazon Web Services,AWS)合作開發,Latam-GPT 代表了從被動消費以美國為中心的技術到主動創造的戰略轉向。該模型擁有 500 億個參數,並在超過 8 TB 的區域數據上進行訓練,旨在糾正 GPT-4 和 Gemini 等全球巨頭固有的歷史偏見,提供一個真正理解南錐體的「voseo」語法、安第斯山脈的土著根源以及該地區社會政治現實的工具。
多年來,拉丁美洲的研究人員和企業一直在努力應對主流 AI 模型的局限性。雖然像 ChatGPT 這樣的系統精通西班牙語,但其底層邏輯和文化知識庫主要源自英語數據和全球北方的世界觀。
CENIA 研究人員強調,當被問及當地文學、歷史甚至節日時,全球模型經常會產生幻覺(hallucinate)或提供通用的、刻板的答案。例如,標準模型通常無法識別智利「9 月 18 日」(獨立日慶祝活動)等日期的文化權重,或者生成依賴於漫畫化形象的拉丁美洲人圖像——例如披著斗篷、背景是山脈的男性——而忽略了該地區的城市現代化。
「我們是在談判桌上,而不是在菜單上,」博里奇總統在發布會期間表示,並強調 Latam-GPT 是主權問題。「如果我們不開發自己的模型,我們就有可能在數字時代失去文化認同,並繼續依賴那些不了解我們是誰的工具。」
Latam-GPT 的獨特之處在於,它並非通過原始規模與萬億參數模型競爭,而是通過數據質量和特異性。該模型作為一個密集且文化豐富的系統運行,旨在提高效率和地方相關性。
最初的訓練是使用 AWS 雲端基礎設施進行的,獲得了 200 萬美元的信用額度資助。然而,Latam-GPT 的路線圖包括一項重大的硬件升級。未來的迭代將在**塔拉帕卡大學(University of Tarapacá)**的一個全新超級計算集群上進行訓練,該集群配備了尖端的 NVIDIA H200 GPU。這項 1000 萬美元的投資標誌著該地區計算能力的重大飛躍,確保模型的維護和演進留在拉丁美洲境內。
以下比較說明了 Latam-GPT 如何在當前佔據市場領先地位的主流封閉原始碼模型中定位自己。
| 功能 | 全球商業 LLM(如 GPT-4, Gemini) | Latam-GPT |
|---|---|---|
| 主要焦點 | 通用型,以全球北方為中心 | 拉丁美洲文化、歷史和方言 |
| 許可類型 | 封閉式 / 專有 | 開源(可供修改) |
| 文化細微差別 | 對當地主題的幻覺率高 | 對當地背景和俚語的高度保真 |
| 數據主權 | 數據存放在美國/歐盟數據中心 | 數據治理優先考慮區域主權 |
| 部署成本 | 初創企業需支付高昂的 API 費用 | 提供免費權重供本地託管 |
| 語言範圍 | 標準西班牙語/葡萄牙語 | 區域方言 + 土著語言(路線圖規劃中) |
Latam-GPT 背後的主要驅動力之一是其在公共部門的應用。與作為「黑盒」運行的商業模型不同,Latam-GPT 的開源特性允許政府將其安全地部署在自己的基礎設施中,以處理敏感的公民數據。
科學、技術、知識與創新部展望該模型將被用於:
「這不僅僅是一個聊天機器人,」CENIA 主任阿爾瓦羅·索托(Álvaro Soto)解釋道。「它是一個基礎設施。通過發布模型的權重,我們使哥倫比亞的初創企業、阿根廷的大學或秘魯的政府機構能夠構建專業應用程序,而無需向外國科技巨頭支付『過路費』。」
將 Latam-GPT 開源的決定是一個關鍵的差異化因素。它解決了「數據沙漠」(Data Desert)現象,即當地數據被國際公司獲取以訓練專有模型,然後再賣回該地區。
通過使基礎模型的獲取民主化,CENIA 希望激發創新生態系統。初創企業現在可以針對特定垂直領域(如智利採礦法規或巴西農業科技)對 Latam-GPT 進行微調(fine-tune),其成本僅為微調 Llama 3 或 GPT-4 等模型的一小部分,且在目標語言方面具有更優越的基準性能。
雖然當前版本在西班牙語和葡萄牙語方面表現出色,但該項目在包容性方面有著雄心勃勃的路線圖。開發團隊正致力於納入土著語言的數據集,包括馬普切語(Mapuche/Mapudungun)、克丘亞語(Quechua)、瓜拉尼語(Guaraní)和艾馬拉語(Aymara)。
由於這些語言的數字化文本稀缺(低資源語言),這一舉措在技術上具有挑戰性。然而,通過與人類學家和土著社區合作,CENIA 旨在以數字方式保存這些語言,防止威脅到被排除在 AI 革命之外的文化的「數字滅絕」。
Latam-GPT 的發布使智利和拉丁美洲牢牢地站在了全球 AI 版圖上。這是一個宣言,表明該地區拒絕成為技術革命的旁觀者。雖然它可能尚不具備世界最大模型的原始推理能力,但 Latam-GPT 證明了文化精確性和數據主權與參數數量同樣具有價值。隨著該模型在塔拉帕卡大學的超級計算機上不斷成熟,它有望成為新一代拉丁美洲創新者的數字骨幹。