Cohere, Tiny Aya 출시: 에지 배포를 위한 3.35B 파라미터 다국어 AI 모델, 70개 이상 언어 지원

Cohere, 엣지 AI를 재정의하는 33.5억 매개변수의 강력한 모델 Tiny Aya 공개

Cohere가 엣지 기기에 고성능 다국어 기능을 제공하도록 설계된 컴팩트한 33.5억 매개변수 오픈 웨이트(open-weight) AI 모델인 Tiny Aya를 공식 출시했습니다. 2026년 2월 20일에 발표된 이번 출시는 생성형 AI(Generative AI) 환경에서 "거거익선(bigger is better)"이라는 도그마에서 벗어나 특화되고 효율적인 주권 AI 솔루션으로 향하는 중요한 전환점을 시사합니다. 소외된 아프리카 및 인도 방언을 포함한 70개 이상의 언어를 지원하는 Tiny Aya는 기술적 성과일 뿐만 아니라, 올해 말 예정된 기업공개(IPO)를 향해 가속도를 내고 있는 Cohere의 전략적 해자(strategic moat)로 자리매김하고 있습니다.

이번 출시는 최근 연간 반복 매출(Annual Recurring Revenue, ARR) 2억 4,000만 달러를 돌파한 캐나다 AI 유니콘 기업의 활발한 행보 속에서 이루어졌습니다. 온디바이스 프라이버시, 저지연 추론, 언어적 포용성의 교차점을 공략함으로써, Cohere는 OpenAI 및 Google과 같은 경쟁사의 거대 클라우드 종속 모델의 지배력에 직접 도전하고 있습니다. Tiny Aya는 인터넷 연결 없이도 iPhone 17 Pro와 같은 표준 소비자용 하드웨어에서 로컬로 실행되도록 최적화되어, 연결성이 제한된 지역에서도 첨단 AI에 대한 접근성을 효과적으로 민주화합니다.

엔지니어링 효율성: 3.35B 아키텍처 내부 분석

오늘 발표의 핵심은 Tiny Aya 아키텍처의 탁월한 효율성입니다. 업계가 역사적으로 조 단위 매개변수를 가진 거대 모델에 집중해 온 반면, Cohere는 연산 비용의 일부만으로 엔터프라이즈급 성능을 제공하는 "소형 언어 모델(Small Language Models, SLMs)"에 집중해 왔습니다.

Tiny Aya는 추론 능력과 휴대성 사이의 균형을 맞추기 위해 세심하게 선택된 33.5억 개의 매개변수를 갖추고 있습니다. 추론을 위해 상당한 GPU 클러스터가 필요했던 이전 모델들과 달리, Tiny Aya는 엣지 환경을 위해 구축되었습니다. 내부 벤치마크 및 초기 개발자 테스트에 따르면, 이 모델은 **iPhone 17 Pro에서 초당 최대 32개의 토큰(tokens per second)**의 추론 속도를 달성하며, 이는 음성 번역 및 대화형 어시스턴트와 같은 실시간 애플리케이션을 위한 중요한 임계값을 충족합니다.

이 모델은 특정 언어군에 맞춰 미세 조정된 TinyAya-Fire 및 TinyAya-Earth를 포함한 여러 지역 변체로 제공됩니다. 이러한 세분화된 접근 방식을 통해 요루바어, 마라티어, 하우사어와 같이 서구 중심의 AI에서 종종 소외되었던 언어에서 뛰어난 성능을 발휘할 수 있습니다.

기술 사양 및 엣지 최적화

Tiny Aya의 아키텍처는 8k 컨텍스트 윈도우(context window)를 활용합니다. 서버 측 모델에서 볼 수 있는 거대한 컨텍스트 윈도우보다는 작지만, 이는 RAM이 제한된 기기에서 상태 유지 및 검색 속도를 극대화하기 위한 의도적인 엔지니어링 절충안입니다.

주요 기술 기능:

양자화 준비 완료(Quantization Readiness): 이 모델은 4비트 및 8비트 양자화를 기본적으로 지원하며 출시되어, 중급 노트북 및 스마트폰의 메모리 제약 내에 편안하게 들어맞습니다.
주권적 운영(Sovereign Operation): 완전히 오프라인으로 실행됨으로써 Tiny Aya는 데이터 유출 위험을 제거하며, 이는 규제 대상 분야의 정부 및 기업 고객에게 가장 중요한 관심사입니다.
특화된 미세 조정: "Fire" 및 "Earth" 변체는 모든 분야에서 뛰어나지는 않지만 특정 고가치 작업에서 탁월한 성능을 발휘하는 모델인 "들쭉날쭉한 지능(Jagged Intelligence)"을 생성하려는 Cohere의 전략을 보여줍니다.

컴팩트 모델 시장의 벤치마킹

소형 언어 모델(SLM) 시장은 2026년 AI 패권을 위한 새로운 전장이 되었습니다. Tiny Aya의 위치를 이해하기 위해 Google의 Gemma 3 및 Alibaba의 Qwen 3와 같은 직접적인 경쟁 모델과 비교하는 것이 필수적입니다.

Gemma 3가 서류상으로는 더 큰 컨텍스트 윈도우와 광범위한 언어 지원을 자랑하지만, GlobalMGSM(다국어 초등 수학) 데이터셋을 사용한 독립적인 벤치마크 결과에 따르면 Tiny Aya는 저사양 리소스 언어의 추론 작업에서 경쟁 모델을 압도하는 것으로 나타났습니다. 이는 매개변수 수보다 데이터 정제 품질이 더 중요하다는 Cohere의 주장을 뒷받침합니다.

표 1: 2026년 소형 언어 모델 경쟁 구도

기능	Cohere Tiny Aya	Google Gemma 3 (4B)	Qwen 3 (4B)
매개변수 수	33.5억	40억	40억
주요 초점	엣지 효율성 및 다국어 주권	광범위한 지식 및 긴 컨텍스트	추론 및 코딩
컨텍스트 윈도우	8k	128k	32k
언어 지원	70개 이상 (인도/아프리카 심화 특화)	140개 이상 (일반적인 범위)	다국어 (중국어/영어 강점)
배포 대상	온디바이스 (모바일/엣지)	클라우드/하이브리드	클라우드/엣지
추론 속도 (모바일)	~32 tokens/sec	~24 tokens/sec	~28 tokens/sec

참고: 추론 속도는 A17 Pro 실리콘 아키텍처에서의 표준 테스트를 기반으로 함.

엔터프라이즈 생태계: Rerank 4 및 Model Vault

Tiny Aya는 고립되어 존재하지 않습니다. 이는 Cohere가 지난 12개월 동안 체계적으로 구축해 온 더 넓은 엔터프라이즈 생태계의 최신 구성 요소입니다. 이 생태계를 지원하는 두 가지 핵심 기둥은 **Rerank 4**와 Model Vault입니다.

Rerank 4: RAG 파이프라인을 위한 정밀도

2025년 말에 출시된 Rerank 4는 검색 증강 생성(Retrieval-Augmented Generation, RAG)의 중요한 "마지막 단계" 문제를 해결합니다. 생성 모델이 텍스트를 생성하는 동안, 리랭커(reranker)는 모델에 입력되는 데이터의 관련성을 보장합니다. Rerank 4는 이전 세대보다 4배 증가한 32k 컨텍스트 윈도우를 도입했습니다.

이 확장된 윈도우를 통해 모델은 한 번에 약 50페이지의 텍스트를 처리할 수 있습니다. 법률 및 금융 기업의 경우, 이는 AI 에이전트가 답변을 생성하기 전에 관련성을 검증하기 위해 전체 계약서나 분기별 보고서를 수집할 수 있음을 의미합니다. 이 "크로스 인코더(Cross-Encoder)" 아키텍처는 검증된 데이터에 기반하여 응답을 생성함으로써 환각 현상(hallucinations)을 크게 줄이며, 이는 기업 도입을 위한 필수 요건입니다.

Model Vault: 주권의 인프라

모델을 보완하는 것은 보안을 중시하는 기업을 위해 설계된 관리형 플랫폼인 **Model Vault**입니다. Model Vault를 통해 기업은 격리된 가상 사설 클라우드(VPC) 내에서 Cohere의 Command 및 Rerank 모델을 배포할 수 있습니다.

이 아키텍처는 데이터를 AI로 보내는 대신 AI를 데이터가 있는 곳으로 가져옵니다. 의료 및 국방과 같은 산업에서 이러한 "제로 트러스트(Zero-Trust)" 배포 모델은 게임 체인저입니다. 이는 민감한 지적 재산이 공용 인터넷을 거치지 않도록 보장하며, 국가와 기업이 지능형 인프라에 대한 완전한 통제권을 추구하는 글로벌 추세인 Sovereign AI(주권 AI)와 완벽하게 일치합니다.

재무적 모멘텀과 IPO를 향한 길

Tiny Aya의 출시는 공개 시장을 향한 Cohere의 행보에서 계산된 단계입니다. 2026년에 IPO가 널리 예상됨에 따라 회사의 재무 건전성은 엄격한 조사를 받고 있습니다. 최신 수치는 유망합니다. Cohere는 2025년에 2억 4,000만 달러의 ARR을 기록했으며, 이는 전 분기 대비 50%의 견고한 성장률을 나타냅니다.

이러한 매출 성장은 자본 효율적인 비즈니스 모델에 의해 뒷받침됩니다. 거대한 범용 모델 학습에 수십억 달러를 지출하는 OpenAI나 Anthropic과 달리, Cohere는 특화된 엔터프라이즈 모델에 집중함으로써 70%에 가까운 매출 총이익률을 유지해 왔습니다. 이러한 차별화는 "물리력(brute force)" 기반의 AI 확장에 수반되는 막대한 운영 비용에 대해 점점 더 경계하는 잠재적 투자자들에게 매우 중요합니다.

전략적 기업 행보:

기업 가치: 회사는 2025년 9월 NVIDIA, Salesforce, AMD와 같은 전략적 거물들의 지원을 받아 70억 달러의 기업 가치를 인정받았습니다.
리더십: 상장 요건에 대비하기 위해 Cohere는 CFO Francois Chadwick(전 Uber)과 최고 AI 책임자(Chief AI Officer) Joelle Pineau(전 Meta)를 영입하며 경영진을 강화했습니다.
시장 입지: 소비자용 챗봇 전쟁을 피함으로써, Cohere는 신뢰성과 데이터 보안이 대화의 유창함보다 더 높은 가치를 지니는 B2B 부문에서 방어 가능한 틈새 시장을 개척했습니다.

Creati.ai의 관점: 일반화에서 전문화로의 전환

Creati.ai의 관점에서 볼 때, Tiny Aya의 출시는 AI 시장의 성숙을 의미합니다. "모든 것을 지배하는 하나의 모델" 시대는 저물고 있습니다. 그 자리에 거대한 클라우드 모델이 무거운 추론을 처리하고, Tiny Aya와 같은 특화된 SLM이 엣지 작업, 프라이버시에 민감한 추론 및 실시간 번역을 처리하는 연합 생태계의 부상을 목격하고 있습니다.

Cohere의 전략은 효율성이 결국 물리력을 이길 것이라는 베팅에 기반합니다. 기업과 소비자가 이미 소유한 하드웨어에서 고품질 AI를 구현함으로써 진입 장벽을 크게 낮추고 있습니다.

그러나 위험은 남아 있습니다. "빅테크" 기득권 세력은 자금력이 풍부하며 소규모 플레이어를 몰아내기 위해 추론 비용을 보조할 여력이 있습니다. 만약 Google이나 Meta가 필적할 만한 엣지 모델을 제한 없이 무료로 제공하기로 결정한다면 Cohere의 마진은 압박을 받을 수 있습니다.

그럼에도 불구하고 현재 Tiny Aya는 집중된 엔터프라이즈의 힘을 보여주는 증거로 서 있습니다. 이는 AI가 단순한 클라우드 서비스가 아니라 사용자의 주머니 속 기기에서 조용하고 안전하게 실행되는 유비쿼터스 유틸리티가 되는 미래를 엿보게 합니다. 향후 몇 주 동안 HuggingFace와 같은 플랫폼에서의 개발자 채택률을 지켜보면서 이 "작은" 거인의 진정한 영향력이 명확해질 것입니다.

향후 전망: 주목해야 할 점

2026년이 진행됨에 따라 이해관계자들은 Cohere의 성공 여부를 판단할 세 가지 핵심 지표를 모니터링해야 합니다.

개발자 채택: Tiny Aya의 오픈 웨이트 특성이 Llama 생태계와 유사하게 커뮤니티 구축 애플리케이션의 급증을 유도할 것인가?
엔터프라이즈 마이그레이션: Rerank 4와 Model Vault의 조합이 포춘 500대 기업들로 하여금 GPT-4 래퍼(wrappers)에서 벗어나게 할 수 있을 것인가?
IPO 타이밍: 인프라와 리더십이 갖춰진 상황에서 IPO 타이밍은 광범위한 시장 상황과 ARR 성장의 지속적인 안정성에 달려 있을 것입니다.

Tiny Aya는 매개변수 면에서는 작을지 모르지만, 주권적이고 사적이며 접근 가능한 AI의 미래에 미치는 영향은 거대합니다.