
글로벌 인공지능 경쟁이 가속화되는 가운데, 인도는 중대한 분기점에 서 있습니다. 서구에서 개발된 대형 언어 모델(Large Language Models, LLMs)이 현재 판도를 장악하고 있지만, 업계 전문가와 정책 입안자들 사이에서는 이러한 수입 기술에 의존하는 것이 인도의 문화적 무결성과 전략적 자율성에 중대한 위험을 초래한다는 인식이 커지고 있습니다.
EY India의 전문가들은 인도가 진정한 "주권형 AI (Sovereign AI)"를 개발하려면 정부가 공공 데이터를 전략적으로 공개하는 것을 우선시해야 한다고 강력히 촉구합니다. 이 조치는 토착 AI 시스템을 구축하는 초석으로 여겨지며, 아대륙의 비할 데 없는 언어적·문화적 다양성을 이해할 수 있는 시스템을 만들어 서구 데이터셋을 기반으로 주로 학습된 글로벌 모델들이 내재한 편향성을 상쇄할 수 있게 합니다.
인도 문맥에 적용할 때 현재의 글로벌 AI 모델들이 가진 한계가 점점 더 명확해지고 있습니다. 주요 LLMs는 대부분 오픈 웹에서 수집한 데이터로 학습되는데, 이 데이터는 북미와 유럽의 영어 콘텐츠에 심각하게 편향되어 있습니다. 이러한 '데이터 편향'은 인도 언어와 사회 구조의 뉘앙스, 감정, 문맥을 이해하는 데 어려움을 초래합니다.
23개의 공용어와 10,000개가 넘는 고유한 방언을 품은 국가에서, 서구 AI의 '한 가지 크기가 모두에게 맞는다'는 접근법은 부적절합니다. 업계 리더들은 단순한 번역만으로는 충분하지 않다고 지적합니다. 진정한 이해를 위해서는 지역적 관용구, 문화적 참조, 역사적 맥락을 포착한 원어 데이터셋으로 학습된 모델이 필요합니다.
서구 모델이 인도 문맥에서 자주 실패하는 주요 영역은 다음과 같습니다:
"주권형 AI"는 인도의 기술 로드맵에서 중심 주제로 부상했습니다. 이는 국가가 국내 인프라, 국가 데이터, 토착 인력으로 AI 시스템을 설계·개발·규제할 수 있는 능력을 의미합니다. 이는 단순한 기술적 야망이 아니라 국가 안보와 경제 회복력의 문제입니다.
EY India의 최근 분석은 주권 능력이 민감한 정보를 보호하고 AI로 창출된 경제적 가치가 국가 내에 남도록 보장하는 데 필수적이라고 제안합니다. 주권 스택이 없으면 인도는 의료 진단에서 금융 포함 도구에 이르기까지 중요한 인프라를 외국 API 제공자에 의존하는 '디지털 식민지'가 될 위험이 있습니다.
강력한 인도 AI 모델을 개발하는 데 있어 주요 병목은 인재나 컴퓨트 파워가 아니라 데이터입니다. 서구 기업들이 수십 년에 걸쳐 오픈 웹을 수집한 반면, 인도에 관한 고품질의 구조화된 데이터는 종종 정부 기록에 갇혀 있습니다.
EY India 전문가들은 인도 정부가 인구 조사 인구 통계부터 기상 기록, 법률 텍스트, 공중 보건 통계에 이르기까지 다양한 데이터의 '금광'을 보유하고 있다고 주장합니다. 이러한 데이터를 인도 스타트업과 연구자들이 책임감 있게 사용할 수 있도록 개방하면 세계 수준의 토착 모델을 학습시키는 연료가 될 수 있습니다.
데이터 공개를 위한 제안 프레임워크:
| 데이터 범주 | 잠재적 AI 적용 | 영향 |
|---|---|---|
| 언어 아카이브 | 다국어 LLM 훈련 | 방언 보존 및 토착어 기반 디지털 서비스 활성화 |
| 공중 보건 기록 | 예측형 의료 모델 | 농촌 지역의 조기 질병 탐지 및 자원 배분 |
| 법률 및 사법 데이터 | 법률 기술 보조 도구 | 소송 미결 건수 감소 및 사법 접근성 향상 |
| 농업 통계 | 정밀 농업 AI | 농작물 수확량 최적화 및 농민을 위한 기상 예측 |
| 인프라 데이터 | 스마트 시티 기획 | 교통 관리 및 도시 유틸리티 분배 개선 |
정부 데이터 공개가 중요하지만, 엄격한 개인정보 보호와 균형을 이루어야 합니다. 권고안은 무분별한 데이터 덤프가 아니라 익명화된 데이터에 대해 훈련 목적의 접근을 허용하되 개인의 프라이버시를 침해하지 않는 '데이터 트러스트(Data Trusts)' 또는 보안 샌드박스(sandbox)를 만드는 것입니다.
Digital Personal Data Protection (DPDP) Act의 시행은 데이터 처리 방식의 기본 규칙을 정하는 데 결정적 역할을 할 것입니다. 전문가들은 익명화된 정부 데이터를 '디지털 공공재(Digital Public Good)'로 취급하는 명확한 정책 프레임워크가 마련되면, UPI(United Payments Interface)와 유사한 성공을 AI 분야에서도 재현하여 혁신의 활발한 생태계를 조성할 수 있다고 제안합니다.
인도의 목표는 세계에서 가장 큰 디지털 서비스 소비국에서 AI 솔루션의 글로벌 창조국으로 전환하는 것입니다. 자국 인구의 현실을 기반으로 AI 개발을 진행함으로써, 인도는 문화적으로 정확할 뿐만 아니라 매우 효율적이고 절약적인 모델을 만들 수 있습니다—이는 글로벌 사우스( Global South )가 절실히 필요로 하는 특성입니다.
경제적 이해관계는 막대합니다. 전망에 따르면 AI는 2035년까지 인도 경제에 거의 1.7조 달러($1.7 trillion)를 기여할 수 있습니다. 그러나 이 가치를 포착하려면 전략의 전환이 필요합니다. 서구 모델을 파인튜닝하는 방식에서 벗어나, 방대한, 다양하고, 깊은 인도 데이터의 힘으로 기초 모델을 처음부터 구축하는 방향으로 나아가야 합니다.
2026년이 전개됨에 따라 공공 부문의 데이터 관리와 민간 부문의 혁신 엔진 간 협력이 인도의 AI 여정 궤적을 정의할 가능성이 높습니다. 전문가들의 메시지는 분명합니다: 인도에 맞는 AI를 만들려면, 우리는 인도인 데이터에서 시작해야 합니다.