AI News

Чили преодолевает языковой барьер в сфере ИИ с запуском Latam-GPT

В рамках знакового шага к технологической независимости Глобального Юга (Global South) Чили официально запустила Latam-GPT, первую большую языковую модель (Large Language Model, LLM) с открытым исходным кодом (Open Source), специально разработанную для освоения лингвистических тонкостей и культурного контекста Латинской Америки. Презентация состоялась в этот вторник в студии Televisión Nacional de Chile (TVN) в Сантьяго в присутствии президента Габриэля Борича и ключевых фигур научного сообщества.

Разработанная Национальным центром искусственного интеллекта (CENIA) в сотрудничестве с Банком развития Латинской Америки (CAF) и Amazon Web Services (AWS), Latam-GPT представляет собой стратегический переход от пассивного потребления технологий, ориентированных на США, к активному созиданию. Модель с 50 миллиардами параметров, обученная на более чем 8 терабайтах региональных данных, призвана исправить исторические предубеждения, присущие мировым гигантам, таким как GPT-4 и Gemini, предлагая инструмент, который действительно понимает «voseo» Южного конуса, коренные корни Анд и социально-политическую реальность региона.

Проблема: ИИ с северным уклоном

В течение многих лет исследователи и компании в Латинской Америке боролись с ограничениями массовых моделей ИИ. Хотя такие системы, как ChatGPT, свободно владеют испанским языком, их базовая логика и база культурных знаний в подавляющем большинстве случаев основаны на англоязычных данных и мировоззрении Глобального Севера.

Исследователи CENIA подчеркнули, что когда их спрашивают о местной литературе, истории или даже праздниках, глобальные модели часто галлюцинируют или дают общие, стереотипные ответы. Например, стандартные модели часто не признают культурную значимость таких дат, как «18 сентября» в Чили (празднование Дня независимости), или генерируют изображения латиноамериканцев на основе карикатур — например, мужчин в пончо на фоне гор — игнорируя городскую современность региона.

«Мы сидим за столом, а не находимся в меню», — заявил президент Борич во время запуска, подчеркнув, что Latam-GPT — это вопрос суверенитета. «Если мы не будем разрабатывать собственные модели, мы рискуем потерять нашу культурную идентичность в цифровую эпоху и остаться зависимыми от инструментов, которые не понимают, кто мы такие».

Технические подробности: Архитектура и обучение

Latam-GPT выделяется не тем, что конкурирует по чистому размеру с моделями с триллионами параметров, а качеством и специфичностью данных. Модель функционирует как плотная, культурно богатая система, предназначенная для эффективности и местной актуальности.

  • Количество параметров: 50 миллиардов.
  • Обучающий корпус: 8 терабайт текстовых данных, что эквивалентно миллионам книг.
  • Источники данных: Кураторская смесь из 2,6 миллионов документов, включая государственные архивы, академические статьи, местную литературу и веб-данные из 20 стран Латинской Америки и Испании.
  • Основные участники: Бразилия внесла самый большой набор данных (685 000 документов), за ней следуют Мексика (385 000) и Испания (325 000).

Первоначальное обучение проводилось с использованием облачной инфраструктуры AWS с предоставлением кредита в размере 2 миллионов долларов. Однако дорожная карта Latam-GPT включает значительное обновление аппаратного обеспечения. Будущие итерации будут обучаться на новом суперкомпьютерном кластере в Университете Тарапаки (University of Tarapacá), оснащенном современными графическими процессорами NVIDIA H200. Эти инвестиции в размере 10 миллионов долларов знаменуют собой значительный скачок в вычислительных мощностях региона, гарантируя, что обслуживание и развитие модели останутся в границах Латинской Америки.

Сравнительный анализ: Latam-GPT против глобальных гигантов

Следующее сравнение иллюстрирует, как Latam-GPT позиционирует себя по отношению к доминирующим проприетарным моделям, лидирующим сейчас на рынке.

Характеристика Глобальные коммерческие LLM (например, GPT-4, Gemini) Latam-GPT
Основная направленность Общего назначения, ориентированы на Глобальный Север Культура, история и диалекты Латинской Америки
Тип лицензии Закрытая / Проприетарная Открытый исходный код (Open Source, доступно для модификации)
Культурные нюансы Высокий уровень галлюцинаций на местные темы Высокая точность в отношении местного контекста и сленга
Суверенитет данных Данные хранятся в дата-центрах США/ЕС Управление данными приоритизирует региональный суверенитет
Стоимость развертывания Высокая стоимость API для стартапов Бесплатные веса доступны для локального хостинга
Лингвистический охват Стандартный испанский/португальский Региональные диалекты + языки коренных народов (в планах)

Инструмент для государственной политики и образования

Одной из основных движущих сил Latam-GPT является его применение в государственном секторе. В отличие от коммерческих моделей, которые работают как «черные ящики», открытый характер Latam-GPT позволяет правительствам безопасно развертывать его в собственной инфраструктуре для обработки конфиденциальных данных граждан.

Министерство науки, технологий, знаний и инноваций предполагает использование модели для:

  1. Оптимизации учебных программ: Создание систем репетиторства, которые точно ссылаются на местную историю и литературу.
  2. Юридических технологий (Legal Tech): помощь юристам и судьям в работе с судебной практикой, специфичной для латиноамериканского гражданского права, а не общего права США, которое часто проникает в общие ответы ИИ.
  3. Здравоохранения: Управление распределением ресурсов в государственных больницах путем обработки неструктурированных местных данных.

«Речь идет не только о чат-боте», — объяснил директор CENIA Альваро Сото. «Это фундаментальная инфраструктура. Выпуская веса модели, мы даем возможность стартапу в Колумбии, университету в Аргентине или правительственному агентству в Перу создавать специализированные приложения, не платя "дань" иностранным технологическим гигантам».

Цифровой суверенитет и философия открытого исходного кода

Решение сделать Latam-GPT моделью с открытым исходным кодом является критически важным отличием. Оно направлено на борьбу с феноменом «пустыни данных» (Data Desert), когда местные данные собираются международными компаниями для обучения проприетарных моделей, которые затем перепродаются региону.

Демократизируя доступ к базовой модели, CENIA надеется дать толчок экосистеме инноваций. Стартапы теперь могут настраивать Latam-GPT для конкретных вертикалей — таких как правила горнодобывающей промышленности Чили или агротехнологии Бразилии — за долю стоимости настройки такой модели, как Llama 3 или GPT-4, и с превосходной базовой производительностью на целевом языке.

Дорожная карта на будущее: Интеграция языков коренных народов

В то время как текущая версия превосходит другие в испанском и португальском языках, проект имеет амбициозную дорожную карту по инклюзивности. Команда разработчиков активно работает над включением наборов данных для языков коренных народов, включая мапуче (мапудунгун), кечуа, гуарани и аймара.

Эта инициатива технически сложна из-за нехватки оцифрованного текста на этих языках (языки с низким объемом ресурсов). Однако, сотрудничая с антропологами и общинами коренных народов, CENIA стремится сохранить эти языки в цифровом виде, предотвращая «цифровое вымирание», которое угрожает культурам, исключенным из революции ИИ.

Заключение

Запуск Latam-GPT прочно ставит Чили и Латинскую Америку на глобальную карту ИИ. Это заявление о том, что регион отказывается быть сторонним наблюдателем в технологической революции. Хотя он, возможно, еще не обладает чистой мощью рассуждений крупнейших мировых моделей, Latam-GPT доказывает, что культурная точность и суверенитет данных столь же ценны, как и количество параметров. По мере того как модель созревает на суперкомпьютере Университета Тарапаки, она обещает стать цифровым хребтом для нового поколения латиноамериканских инноваторов.

Рекомендуемые