
隨著全球在人工智慧(AI)領域的競賽加速,印度正處於關鍵的轉捩點。雖然西方開發的大型語言模型(Large Language Models,LLMs)主導當前格局,但業界專家與政策制定者日益共識,過度依賴這些進口技術會對印度的文化完整性與戰略自主構成重大風險。
EY India 的專家提出了具說服力的行動呼籲,主張為了讓印度發展真正的「主權 AI(Sovereign AI)」,政府必須優先戰略性釋出公共資料。此舉被視為打造本土 AI 系統的基石,這些系統能理解次大陸無可比擬的語言與文化多樣性,從而對抗主要基於西方資料集訓練的全球模型所具備的內在偏見。
當前全球 AI 模型在印度情境下的侷限性愈來愈明顯。大多數領先的大型語言模型是以爬取自開放網路的資料訓練,而這些資料嚴重偏向北美與歐洲的英文內容。這種「資料偏見」導致 AI 系統難以掌握印度語言與社會結構的細微差別、情感與語境。
對於一個擁有 23 種官方語言與超過 10,000 種獨特方言的國家,西方 AI 的「一體適用」方法顯然不足。業界領袖指出,僅靠翻譯遠遠不夠;真正的理解需要以本地資料集訓練的模型,能捕捉當地俚語、文化參照與歷史脈絡。
西方模型在印度情境中常出現錯誤的主要領域包括:
「主權 AI」的概念已在印度的科技路線圖中成為核心主題。它指的是一個國家利用國內基礎設施、國家資料與本土人力,設計、開發與監管 AI 系統的能力。這不僅是技術上的野心,更涉及國家安全與經濟韌性。
EY India 的最新分析顯示,主權能力對於保護敏感資訊並確保 AI 創造的經濟價值留在國內至關重要。若沒有主權技術堆疊,印度有成為「數位殖民地」的風險,將在關鍵基礎設施上依賴外國 API 提供者,從醫療診斷到金融包容工具皆然。
開發強健印度 AI 模型的主要瓶頸不是人才或計算資源,而是資料。西方企業有數十年的時間從開放網路蒐集資料,而關於印度的高品質、結構化資料常常被封存在政府檔案中。
EY India 的專家認為,印度政府掌握著一座「金礦」般的多樣化資料集——從人口普查人口統計與氣象記錄,到法律文本與公共衛生統計。若能負責任地釋出這些資料供印度新創與研究人員使用,將為訓練世界級本土模型提供所需的燃料。
擬議的資料釋出框架:
| 資料類別 | 潛在 AI 應用 | 影響 |
|---|---|---|
| 語言檔案 | 訓練多語言大型語言模型 | 保存方言並啟用地方語言的數位服務 |
| 公共衛生記錄 | 預測型醫療模型 | 提早偵測疾病並在農村地區進行資源分配 |
| 法律與司法資料 | 法律科技助理 | 減少案件積壓並改善司法可及性 |
| 農業統計 | 精準農業 AI | 優化作物產量與為農民提供天氣預報 |
| 基礎建設資料 | 智慧城市規劃 | 改善交通管理與城市公共事業分配 |
雖然釋放政府資料至關重要,但必須與嚴格的隱私保護平衡。建議不是進行不受限制的資料傾倒,而是建立「資料信託」或安全沙盒,在不危及個人隱私的前提下提供匿名化資料供訓練使用。
數位個人資料保護法(Digital Personal Data Protection,DPDP Act)的實施在此將扮演關鍵角色,設定資料可如何被處理的基本規則。專家建議,將匿名化的政府資料視為「數位公共財」的明確政策框架,可能在 AI 領域複製 Unified Payments Interface(UPI)所帶來的成功,促進一個充滿活力的創新生態系。
印度的志向是從世界上最大的數位服務消費國,轉變為 AI 解決方案的全球創造者。透過以自身人口現實為基礎來發展 AI,印度能創造出不僅在文化上準確、而且高度有效且節省資源的模型——這正是全球南方(Global South)迫切需要的特性。
經濟利害關係龐大。預測顯示,到 2035 年 AI 可為印度經濟貢獻近 1.7 兆美元。然而,要獲取這些價值需要策略轉變。這要求從微調西方模型轉向從頭打造基礎模型,並以廣大、多樣且深厚的印度資料為驅動。
隨著 2026 年展開,公共部門的資料管理與私營部門的創新引擎之間的合作,將可能決定印度 AI 之路的走向。專家的訊息很清楚:要打造適用於印度的 AI,我們必須從「就是印度」的資料開始。