vLLM을 상업화하는 Inferact, AI 추론을 강화하기 위해 1억5천만 달러 조달

AI 인프라의 새로운 시대: Inferact, vLLM 상용화를 위해 $150 Million 확보

인공지능 인프라스트럭처 분야의 결정적인 순간에, 널리 채택된 오픈소스 추론 엔진 vLLM의 창시자들이 설립한 스타트업 Inferact가 공식적으로 스텔스 상태를 벗어나 대규모 $150 Million 시드 라운드(seed round) 를 확보했습니다. 이번 라운드는 신생 기업의 기업 가치를 인상적인 $800 Million 으로 평가했으며, 벤처 캐피털 거물 Andreessen Horowitz (a16z) 와 Lightspeed Venture Partners 가 공동 리드했습니다.

이번 자금 조달은 실리콘밸리 역사상 가장 큰 시드 라운드 중 하나를 의미하며, 투자자들의 관심이 모델 훈련에서 모델 서빙(model serving)으로 결정적으로 이동하고 있음을 시사합니다. 생성형 AI(Generative AI)가 실험실 연구 단계에서 대규모 프로덕션으로 옮겨가면서 업계는 새로운 병목 현상에 직면했습니다: 바로 추론(inference)의 과도한 비용과 높은 지연(latency)입니다. Inferact는 vLLM의 보급성을 활용해 기업용 "범용 추론 레이어(universal inference layer)" 를 구축함으로써 전 세계적으로 AI 모델 배포 방식을 표준화하려 합니다.

이번 초과 신청된 라운드에는 a16z와 Lightspeed 외에도 Sequoia Capital, Altimeter Capital, Redpoint Ventures, ZhenFund 가 참여해 추론 레이어의 전략적 중요성을 강조하는 후원 연합을 형성했습니다.

vLLM 현상: 버클리 연구실에서 업계 표준까지

이 자금 조달의 규모를 이해하려면 Inferact를 지탱하는 기술을 살펴봐야 합니다. vLLM(Versatile Large Language Model)은 UC Berkeley의 연구 프로젝트로 시작되었으며, Simon Mo, Woosuk Kwon, Kaichao You, Roger Wang 등을 포함한 팀이 개발했습니다. 이들의 목표는 대형 언어 모델(LLM)이 텍스트 생성 중 메모리를 관리하는 방식에서 발생하는 치명적인 비효율성을 해결하는 것이었습니다.

돌파구는 운영체제의 가상 메모리 페이징에서 영감을 받은 알고리즘 PagedAttention의 형태로 나타났습니다. 전통적인 어텐션 메커니즘은 메모리 단편화로 인해 고성능 GPU 자원이 낭비되는 문제가 있으며, 이는 H100 GPU가 희소하고 비싼 시대에 중대한 문제였습니다. PagedAttention은 vLLM이 어텐션 키와 값을 비연속 메모리 블록에 관리할 수 있게 하여 처리량을 대폭 향상시킵니다.

오픈소스 공개 이후, vLLM은 Kubernetes나 Docker 초창기를 연상시키는 바이럴한 채택 지표를 달성했습니다:

전 세계적으로 400,000+ GPUs 가 동시에 vLLM을 실행하는 것으로 추정됩니다.
2,000명 이상의 기여자가 GitHub에서 프로젝트에 참여했습니다.
Meta, Google, Character.ai 등 주요 기술 기업들이 채택했습니다.

Inferact는 이 오픈소스 현상을 관리하는 역할을 맡으면서 기업들이 미션 크리티컬 애플리케이션에 신뢰하고 사용할 수 있는 상용 플랫폼을 구축해야 하는 과제를 안고 있습니다.

자금 조달 한눈에 보기

다음 표는 Inferact의 역사적인 시드 라운드의 주요 세부 정보를 요약합니다.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

훈련에서 서빙으로의 전환

Inferact의 출시는 AI 경제에서의 근본적 전환과 맞물려 있습니다. 지난 2년간 자본 지출은 훈련(training) 에 집중되어 왔으며—GPT-4, Claude, Llama 3 같은 파운데이션 모델을 만들기 위해 거대한 클러스터를 구축하는 데 투입되었습니다. 그러나 이러한 모델들이 제품에 배포되면서 비용 구조는 크게 추론(inference) 쪽으로 기울게 됩니다.

업계 분석가들은 이를 "처리량 시대(Throughput Era)" 라고 명명했으며, 성공의 주요 지표는 더 이상 단순히 모델 품질만이 아니라 달러당 초당 토큰(tokens per second per dollar) 이 되었습니다. 수백만 사용자에게 Llama-3-70B 같은 모델을 대규모로 운영하려면 엄청난 연산 능력이 필요합니다. 비효율적인 소프트웨어 스택은 지연 시간 급증과 클라우드 비용 폭등을 초래해 AI 애플리케이션의 단위 경제성(unit economics)을 무너뜨립니다.

Andreessen Horowitz 파트너들은 투자 논문에서 "소프트웨어가 하드웨어보다 더 중요해지고 있다"고 언급했습니다. 기저 소프트웨어 스택이 GPU를 단지 30%만 활용한다면 단순히 NVIDIA H100을 더 많이 사는 것은 더 이상 실행 가능한 전략이 아닙니다. Inferact의 가치 제안은 고급 소프트웨어 최적화를 통해 남은 70%의 연산 잠재력을 해방시키는 것으로, 하드웨어 투자에 대한 효과를 배가시키는 역할을 합니다.

오픈소스 상용화: "Red Hat" 전략

Inferact는 Databricks(Spark), Confluent(Kafka), HashiCorp(Terraform) 같은 성공적인 상용 오픈소스 기업(COSS)의 잘 닦인 길을 따릅니다. 회사는 번성하는 무료 커뮤니티를 지원하면서 유료 고객을 위한 독점적 가치를 창출하는 고전적인 이중 과제에 직면해 있습니다.

CEO Simon Mo에 따르면 Inferact의 상용 전략은 엔터프라이즈급 신뢰성 및 확장성에 초점을 맞추고 있습니다. 오픈소스 vLLM 엔진이 원시 엔진 파워를 제공하는 반면, 엔터프라이즈는 다음을 요구합니다:

Managed Infrastructure: 자동화된 스케일링, 멀티 노드 오케스트레이션, 장애 복구
Security & Compliance: SOC2 준수, 프라이빗 클라우드 배포, 안전한 모델 처리
Optimized Kernels: 일반 오픈소스 지원을 넘어 특정 하드웨어 구성에 대한 독점 최적화
SLA Guarantees: 핵심 애플리케이션을 위한 보장된 처리량과 지연 시간

이러한 "오픈 코어(Open Core)" 모델은 Inferact가 vLLM을 업계 표준인 "추론의 리눅스(Linux of Inference)"로 유지하는 동시에—NVIDIA, AMD, Intel 칩에서도 운영되도록 하면서—다운타임이나 관리되지 않은 복잡성을 감당할 수 없는 대형 조직으로부터 가치를 창출할 수 있게 합니다.

기술적 심층 분석: 왜 PagedAttention이 중요한가

vLLM의 우위와 확장적인 Inferact의 가치 평가 뒤에 있는 비밀은 PagedAttention 입니다. 표준 LLM 서빙에서는 키-값(KV) 캐시가—지금까지의 대화 내용을 모델이 기억하는 메모리—동적으로 증가합니다. 전통적인 시스템은 이 성장을 처리하기 위해 연속된 메모리 블록을 미리 할당해야 하며, 이는 심각한 단편화를 초래합니다. 이는 마치 만약 손님이 99명의 친구를 데려올지도 모르니 100석짜리 버스를 매번 예약하는 것과 같습니다.

PagedAttention은 KV 캐시를 더 작은 블록으로 나눠 비연속 메모리 공간에 저장할 수 있게 함으로써 이를 해결합니다. vLLM 엔진은 운영체제가 RAM을 관리하듯 이러한 블록을 추적하는 "페이지 테이블"을 유지합니다.

주요 기술적 이점:

Zero Waste: 단편화로 인한 메모리 낭비를 거의 0% 수준(<4%)으로 감축
Higher Batch Sizes: 메모리 사용 효율이 높아져 더 많은 요청을 배치 처리 가능
Throughput Gains: 벤치마크에서 vLLM은 표준 HuggingFace Transformers보다 지연 시간을 희생하지 않고도 2x에서 4x까지 더 높은 처리량을 일관되게 제공합니다

연간 추론 컴퓨팅에 $10 Million을 지출하는 회사의 경우, vLLM을 도입하면 단순한 소프트웨어 활용 개선만으로 비용을 이론적으로 $2.5-$5 Million으로 줄일 수 있습니다. 이런 직접적인 ROI가 Inferact를 투자자와 고객 모두에게 매력적인 제안으로 만드는 이유입니다.

AI 생태계에 대한 전략적 함의

$150 Million의 자금 지원으로 등장한 Inferact는 AI 생태계에 파문을 일으킵니다.

클라우드 제공업체에 대한 압박: 주요 클라우드 제공업체(AWS, Azure, Google Cloud)와 모델 API 제공업체(Anyscale, Together AI, Fireworks)들은 종종 자체 추론 스택을 구축합니다. Inferact는 기업들이 어떤 클라우드에서도 자체 추론 스택을 소유할 수 있게 해주는 벤더 중립적 대안을 제공합니다.
표준화: 추론 엔진의 단편화(TensorRT-LLM, TGI, vLLM)는 개발자들에게 골칫거리였습니다. Inferact의 자본화는 vLLM이 사실상의 표준 API가 되어 개발자 경험을 단순화할 수 있음을 시사합니다.
"소프트웨어 세(Software Tax)" : 하드웨어가 상품화되면 가치 포착은 이를 오케스트레이션하는 소프트웨어 계층으로 이동합니다. Inferact는 LLM을 위한 "운영체제"가 칩만큼이나 가치 있을 것이라고 베팅하고 있습니다.

향후 전망

$150 Million의 신규 자본을 바탕으로 Inferact는 엔지니어링 팀을 공격적으로 확장할 계획이며, 특히 커널 해커(kernel hackers)와 분산 시스템 전문가(distributed systems experts)를 집중적으로 채용할 예정입니다. 또한 회사는 새로운 하드웨어 아키텍처에 대한 지원을 심화하여 vLLM이 현재 NVIDIA가 지배하는 시장에서 가장 다재다능한 엔진으로 남도록 할 계획입니다.

AI 산업이 성숙함에 따라, 인프라의 "지루한" 계층—서빙, 스케일링, 최적화—이 가장 수익성이 높은 분야가 되고 있습니다. Inferact는 단순히 소프트웨어를 판매하는 것이 아니라 AI 골드러시의 다음 단계인 배포(deployment)를 위한 도구를 제공하고 있습니다.

비용이나 지연 문제로 생성형 AI(Generative AI) 파일럿을 프로덕션으로 전환하는 데 어려움을 겪는 엔터프라이즈에게 Inferact는 구명줄을 제공합니다. 오픈소스 커뮤니티에는 이번 자금이 vLLM의 지속적인 개발을 약속하며, vLLM이 견고하고 최첨단으로 유지되도록 보장합니다. 추론 레이어를 장악하기 위한 경쟁이 공식적으로 시작되었으며, Inferact는 초기이면서도 결정적인 우위를 점했습니다.