AI News

칠레, Latam-GPT 출시로 AI 언어 장벽을 허물다

글로벌 사우스(Global South)의 기술적 독립을 위한 획기적인 행보로, 칠레는 라틴 아메리카의 언어적 복잡성과 문화적 맥락을 마스터하기 위해 특별히 설계된 최초의 오픈 소스 거대 언어 모델(Large Language Model, LLM)인 Latam-GPT를 공식 출시했습니다. 이번 발표는 이번 주 화요일 산티아고의 칠레 국영 방송(TVN) 스튜디오에서 가브리엘 보리치(Gabriel Boric) 대통령과 과학계의 주요 인사들이 참석한 가운데 진행되었습니다.

국립 인공지능 센터(CENIA)가 라틴 아메리카 개발 은행(CAF) 및 아마존 웹 서비스(AWS)와 협력하여 개발한 Latam-GPT는 미국 중심 기술의 수동적 소비에서 능동적 창조로의 전략적 전환을 나타냅니다. 500억 개의 매개변수(Parameter)와 8테라바이트 이상의 지역 데이터로 학습된 이 모델은 GPT-4 및 Gemini와 같은 글로벌 거대 모델에 내재된 역사적 편향을 수정하고, 남부 원뿔(Southern Cone) 지역의 "보세오(voseo)", 안데스 산맥의 원주민 뿌리, 그리고 지역의 사회 정치적 현실을 진정으로 이해하는 도구를 제공하는 것을 목표로 합니다.

문제점: 북반구 편향을 가진 AI

수년 동안 라틴 아메리카의 연구자와 기업들은 주류 AI 모델의 한계와 씨름해 왔습니다. ChatGPT와 같은 시스템은 스페인어에 능통하지만, 그 기본 논리와 문화적 지식 기반은 압도적으로 영어 데이터와 북반구(Global North)의 세계관에서 파생되었습니다.

CENIA 연구원들은 지역 문학, 역사, 심지어 공휴일에 대해 질문했을 때 글로벌 모델이 자주 환각 현상(Hallucination)을 일으키거나 일반적이고 정형화된 답변을 제공한다고 강조했습니다. 예를 들어, 표준 모델은 칠레의 "9월 18일"(독립기념일 축제)과 같은 날짜의 문화적 중요성을 인식하지 못하거나, 지역의 도시적 현대성을 무시한 채 산을 배경으로 폰초를 입은 남성과 같은 캐리커처에 의존하여 라틴 아메리카인의 이미지를 생성하는 경우가 많습니다.

"우리는 메뉴가 아니라 테이블에 앉아 있다"고 보리치 대통령은 출시 행사에서 언급하며, Latam-GPT가 주권의 문제임을 강조했습니다. "우리 자신의 모델을 개발하지 않는다면, 우리는 디지털 시대에 문화적 정체성을 잃고 우리가 누구인지 이해하지 못하는 도구에 계속 의존하게 될 위험이 있습니다."

내부 구조: 기술 아키텍처 및 학습

Latam-GPT는 조 단위 매개변수 모델과 원시적인 크기로 경쟁하는 것이 아니라, 데이터의 품질과 특수성을 통해 차별화됩니다. 이 모델은 효율성과 지역적 관련성을 위해 설계된 밀도가 높고 문화적으로 풍부한 시스템으로 작동합니다.

  • 매개변수 수: 500억 개.
  • 학습 코퍼스(Training Corpus): 8테라바이트의 텍스트 데이터(수백만 권의 책에 해당).
  • 데이터 소스: 정부 기록 보관소, 학술 논문, 지역 문학, 20개 라틴 아메리카 국가 및 스페인의 웹 데이터를 포함한 260만 개의 엄선된 문서 혼합.
  • 주요 기여자: 브라질이 가장 큰 데이터 세트(685,000개 문서)를 제공했으며, 멕시코(385,000개)와 스페인(325,000개)이 그 뒤를 이었습니다.

초기 학습은 200만 달러의 크레딧 지원을 받아 AWS 클라우드 인프라를 사용하여 수행되었습니다. 그러나 Latam-GPT의 로드맵에는 상당한 하드웨어 업그레이드가 포함되어 있습니다. 향후 버전은 최첨단 NVIDIA H200 GPU를 갖춘 **타라파카 대학교(University of Tarapacá)**의 새로운 슈퍼컴퓨팅 클러스터에서 학습될 예정입니다. 이 1,000만 달러 규모의 투자는 지역의 컴퓨팅 역량에서 중요한 도약을 의미하며, 모델의 유지 관리 및 진화가 라틴 아메리카 국경 내에 머물도록 보장합니다.

비교 분석: Latam-GPT vs. 글로벌 거대 모델

다음 비교는 Latam-GPT가 현재 시장을 선도하는 지배적인 폐쇄형 모델들과 어떻게 차별화되는지 보여줍니다.

특징 글로벌 상용 LLM (예: GPT-4, Gemini) Latam-GPT
주요 초점 일반적인 목적, 북반구 중심 라틴 아메리카 문화, 역사 및 방언
라이선스 유형 폐쇄형 / 독점적 오픈 소스 (수정 가능)
문화적 뉘앙스 지역 주제에 대한 높은 환각율 지역 맥락 및 슬랭에 대한 높은 충실도
데이터 주권 데이터가 미국/유럽 데이터 센터에 위치 데이터 거버넌스가 지역 주권을 우선시함
배포 비용 스타트업에게 높은 API 비용 발생 로컬 호스팅을 위한 무료 가중치 제공
언어적 범위 표준 스페인어/포르투갈어 지역 방언 + 원주민 언어 (로드맵 포함)

공공 정책 및 교육을 위한 도구

Latam-GPT의 주요 동력 중 하나는 공공 부문에서의 활용입니다. "블랙박스(Black box)"로 운영되는 상용 모델과 달리, Latam-GPT의 개방적인 특성은 정부가 민감한 시민 데이터를 처리하기 위해 자체 인프라 내에서 안전하게 배포할 수 있도록 합니다.

과학기술지식혁신부는 이 모델이 다음과 같이 사용될 것으로 전망합니다:

  1. 교육 커리큘럼 최적화: 지역 역사와 문학을 정확하게 참조하는 튜터링 시스템 구축.
  2. 법률 기술(Legal Tech): 일반적인 AI 응답에서 자주 나타나는 미국 관습법이 아닌, 라틴 아메리카 민법에 특화된 판례를 통해 변호사와 판사를 지원.
  3. 의료: 비정형 지역 데이터를 처리하여 공공 병원의 자원 배분 관리.

"이것은 단순한 챗봇에 관한 것이 아닙니다"라고 CENIA의 알바로 소토(Álvaro Soto) 이사는 설명했습니다. "이것은 기초적인 인프라입니다. 모델의 가중치(Weights)를 공개함으로써 콜롬비아의 스타트업, 아르헨티나의 대학교 또는 페루의 정부 기관이 외국 기술 거대 기업에 '통행료'를 지불하지 않고도 특화된 애플리케이션을 구축할 수 있도록 지원하고 있습니다."

디지털 주권과 오픈 소스 철학

Latam-GPT를 오픈 소스로 만들기로 한 결정은 결정적인 차별화 요소입니다. 이는 국제 기업들이 지역 데이터를 수집하여 독점 모델을 학습시킨 후 다시 해당 지역에 판매하는 "데이터 사막(Data Desert)" 현상을 해결합니다.

기본 모델에 대한 접근을 민주화함으로써, CENIA는 혁신의 생태계가 촉발되기를 희망합니다. 이제 스타트업은 Llama 3나 GPT-4와 같은 모델을 미세 조정(Fine-tuning)하는 비용의 일부만으로도 칠레 광산 규제나 브라질 농업 기술과 같은 특정 수직 분야에 맞춰 Latam-GPT를 미세 조정할 수 있으며, 대상 언어에서 우수한 기본 성능을 얻을 수 있습니다.

향후 로드맵: 원주민 언어 통합

현재 버전은 스페인어와 포르투갈어에 탁월하지만, 이 프로젝트는 포용성을 위한 야심 찬 로드맵을 가지고 있습니다. 개발팀은 **마푸체어(Mapuche, Mapudungun), 케추아어(Quechua), 과라니어(Guaraní), 아이마라어(Aymara)**를 포함한 원주민 언어용 데이터 세트를 통합하기 위해 적극적으로 노력하고 있습니다.

이러한 언어의 디지털화된 텍스트가 부족하기 때문에(저자원 언어) 이 이니셔티브는 기술적으로 어렵습니다. 그러나 CENIA는 인류학자 및 원주민 커뮤니티와 협력하여 이러한 언어를 디지털 방식으로 보존하고, AI 혁명에서 제외된 문화들이 직면한 "디지털 멸종"을 방지하는 것을 목표로 합니다.

결론

Latam-GPT의 출시는 칠레와 라틴 아메리카를 글로벌 AI 지도에 확고히 각인시켰습니다. 이는 지역 사회가 기술 혁명의 방관자가 되기를 거부한다는 선언입니다. 비록 세계 최대 모델들의 원시적인 추론 능력에는 아직 미치지 못할지 모르지만, Latam-GPT는 문화적 정밀도와 데이터 주권이 매개변수 수만큼이나 가치 있다는 것을 증명합니다. 타라파카 대학교의 슈퍼컴퓨터에서 모델이 성숙해짐에 따라, 이는 차세대 라틴 아메리카 혁신가들을 위한 디지털 중추가 될 것을 약속합니다.

추천