AI News

Unicórnio de Infraestrutura de IA de voz (Voice AI): LiveKit capta US$100 milhões com avaliação de US$1 bilhão

LiveKit, o provedor de infraestrutura de código aberto que alimenta a próxima geração de inteligência artificial em tempo real (real-time artificial intelligence), entrou oficialmente para a lista de unicórnios do setor de tecnologia. A empresa sediada em São Francisco anunciou na quinta-feira que levantou US$100 milhões em uma rodada de financiamento Série C, elevando sua avaliação para US$1 bilhão. Essa injeção significativa de capital destaca o papel crítico que a LiveKit passou a desempenhar na crescente pilha de IA, especialmente como o motor principal por trás do ChatGPT Advanced Voice Mode da OpenAI.

A rodada foi liderada pela Index Ventures, uma firma proeminente conhecida por apoiar mudanças tecnológicas geracionais, com participação continuada dos investidores existentes Altimeter Capital, Redpoint Ventures e Hanabi Capital. O financiamento ocorre menos de um ano após a Série B da empresa, evidenciando uma trajetória de crescimento agressiva alimentada pela demanda explosiva por agentes de IA multimodais (multimodal AI agents) capazes de enxergar, ouvir e falar em tempo real.

"Antecipamos que 2026 será o ano em que a IA de voz será amplamente implantada em milhares de casos de uso ao redor do mundo", disse Russ d’Sa, cofundador e CEO da LiveKit. O capital será utilizado para expandir a rede global "Real-time Cloud" da LiveKit e desenvolver ainda mais seu Agents API, uma estrutura projetada para simplificar a orquestração complexa necessária para interações de IA com baixa latência.

A parceria com a OpenAI: validando a infraestrutura

Central para a rápida ascensão da LiveKit está sua parceria estratégica com a OpenAI. Enquanto a IA generativa (Generative AI) tem se concentrado em grande parte em Modelos de Linguagem de Grande Escala (Large Language Models, LLMs) baseados em texto, a fronteira mudou para capacidades multimodais — especificamente voz e vídeo. A tecnologia da LiveKit serve como espinha dorsal para o Voice Mode do ChatGPT, lidando com a intricada transmissão de dados em nível de milissegundos necessária para fazer com que conversas com IA pareçam naturais e semelhantes às humanas.

Antes da LiveKit, desenvolvedores que tentavam construir bots de voz em tempo real eram forçados a montar serviços díspares: APIs distintas para speech-to-text (STT), a inferência do LLM e text-to-speech (TTS), tudo encapsulado em protocolos padrão HTTP ou WebSocket. Essa abordagem "remendada" frequentemente resultava em latências de 2–3 segundos ou mais — uma eternidade numa conversa que gera pausas constrangedoras e interrupções.

A LiveKit resolveu isso ao adaptar o WebRTC, o protocolo padrão para videoconferência, em uma camada de transporte de dados otimizada para IA. Ao gerenciar o fluxo de áudio diretamente entre o dispositivo do usuário e o modelo de IA, a LiveKit reduz a latência para menos de 300 milissegundos, o limiar necessário para o cérebro humano perceber uma interação como "em tempo real".

Sahir Azam, um investidor da Index Ventures, observou em um comunicado que a LiveKit está estabelecendo "uma das camadas de infraestrutura mais importantes na pilha de IA", tornando-se efetivamente o sistema nervoso que conecta modelos de IA ao mundo físico.

Dentro da tecnologia: o "sistema nervoso" para agentes de IA

A plataforma da LiveKit não é meramente um SDK de chamadas de vídeo; é um ambiente abrangente para construir agentes de IA "estadoful". Ao contrário de chatbots tradicionais que são stateless (esquecendo o contexto entre requisições HTTP), um agente de voz deve manter uma conexão contínua para lidar com interrupções, ruído de fundo e lógica de tomada de turno.

O Agents API da empresa permite que desenvolvedores construam esses fluxos de trabalho complexos em código, em vez de configuração. Ele orquestra o fluxo de dados entre vários provedores de modelos — como Deepgram para transcrição, OpenAI ou Anthropic para inteligência, e Cartesia ou ElevenLabs para síntese de voz — enquanto a LiveKit gerencia o networking.

Principais diferenciais técnicos

  • Ultra-baixa latência: rede global de borda (edge) otimizada especificamente para roteamento de áudio máquina-a-máquina e máquina-para-humano.
  • Nativo multimodal: construído para lidar com áudio, vídeo e canais de dados simultaneamente, possibilitando agentes que podem "ver" via entrada de câmera enquanto falam.
  • Orquestração ponta a ponta: gerencia a lógica difícil de "voice activity detection" (VAD), garantindo que a IA pare de falar imediatamente quando o usuário interrompe — uma marca de conversação natural.

Cenário competitivo: Infra especializada vs. Telecom legado

A ascensão da LiveKit perturba um mercado há muito dominado por provedores legados de plataformas de comunicação como serviço (CPaaS) como Twilio e SDKs centrados em vídeo como Agora. Enquanto esses incumbentes se destacam em conectar humanos a humanos, eles não foram arquitetados para as exigências de alta largura de banda e baixa latência dos modelos de IA comunicando-se com humanos.

A tabela a seguir ilustra como a LiveKit se posiciona contra concorrentes tradicionais no espaço em tempo real:

Feature LiveKit Agora Twilio
Primary Focus AI Agent Infrastructure Live Video/Audio Streaming Telephony & Messaging
Architecture WebRTC for AI (Data + Media) Proprietary Real-Time Network SIP / PSTN / HTTP
Open Source Core Yes (Apache 2.0) No (Closed Source) No (Closed Source)
AI Orchestration Native Agents Framework Partner Integrations Partner Integrations
Latency Target <300ms (Conversational) <400ms (Broadcasting) Variable (Telephony standards)
Developer Model Self-hostable or Cloud Cloud Only Cloud Only

A estratégia open-source da LiveKit foi instrumental em sua adoção. Ao permitir que engenheiros inspecionem o código e auto-hospedem a stack para testes, eles construíram uma comunidade de desenvolvedores com mais de 200.000 usuários. Essa adoção "de baixo para cima" espelha as estratégias de outros gigantes de infraestrutura como Vercel ou MongoDB, criando um fosso que soluções proprietárias acham difícil de ultrapassar.

Expansão da base de clientes: de startups a empresas

Embora a OpenAI seja o cliente de destaque, a utilidade da LiveKit vai muito além de chatbots para consumidores. A tecnologia está atualmente implantada por uma gama diversificada de gigantes empresariais, incluindo:

  • Tesla: utilizando a LiveKit para diagnósticos em tempo real e potenciais recursos de assistente de voz dentro do carro.
  • Salesforce: integrando recursos de voz em tempo real em suas plataformas Service Cloud e Agentforce.
  • xAI: aproveitando a infraestrutura para as capacidades multimodais do Grok.
  • Spotify: experimentando navegação por voz e funcionalidades de DJ por IA.

"Hoje, grandes empresas estão avaliando e construindo agentes de voz para automatizar fluxos de trabalho, melhorar experiências dos clientes e desbloquear novas receitas", escreveu d’Sa em um post no blog que acompanhou o anúncio do financiamento. Ele destacou que, embora muitos casos de uso estejam em estágio de prova de conceito, a transição para produção está se acelerando. Serviços financeiros estão usando a tecnologia para verificação de identidade via biometria de voz, enquanto provedores de saúde estão implantando agentes para triagem de pacientes antes que falem com um médico humano.

Roteiro futuro: a era da computação "morna" (Warm)

Com US$100 milhões em capital fresco, a LiveKit planeja ampliar sua equipe de engenharia e expandir sua presença de infraestrutura física. Uma parte significativa do roteiro é dedicada a capacidades de visão. À medida que modelos como GPT-4o e Gemini 1.5 Pro se tornam mais aptos a processar fluxos de vídeo, a LiveKit pretende ser o canal padrão para enviar feeds de câmera para LLMs para análise em tempo real.

Imagine um técnico de serviço de campo usando óculos inteligentes que pode falar com um agente de IA que "vê" a máquina quebrada através da câmera do técnico e destaca a peça correta a ser substituída em um display de cabeça erguida. Isso requer largura de banda e capacidades de sincronização que vão além do áudio simples, e a LiveKit está se posicionando para controlar esse pipeline.

Além disso, a empresa está investindo em edge computing. Para reduzir cada milissegundo possível de latência, a LiveKit está implantando seus servidores de mídia mais próximos do usuário final e dos centros de inferência de modelos, reduzindo o tempo de "ida e volta" dos pacotes de dados.

Insight da Creati.ai: infraestrutura é o novo ouro

Do ponto de vista da Creati.ai, a avaliação de US$1 bilhão da LiveKit sinaliza uma maturidade no mercado de IA generativa (Generative AI). O ciclo inicial de hype focou fortemente nos modelos de base em si (OpenAI, Anthropic, Google). Agora, o foco está mudando para a camada capacitada — as ferramentas e infraestruturas que permitem às empresas realmente construir produtos confiáveis sobre esses modelos.

A LiveKit identificou corretamente que o gargalo para a adoção de IA não é mais a inteligência, mas a interação. Se uma IA é inteligente, mas demora três segundos para responder, ela é inutilizável para atendimento ao cliente. Ao resolver o problema de latência e orquestração, a LiveKit não está apenas vendendo software; está vendendo a viabilidade da economia dos agentes de IA.

À medida que avançamos por 2026, esperamos ver uma consolidação nessa camada. Empresas que conseguirem oferecer um pipeline contínuo e sem atritos dos lábios do usuário até o "cérebro" do modelo e de volta capturarão um valor imenso. A LiveKit, com suas raízes open-source e profunda integração com a líder do setor OpenAI, está atualmente na posição de destaque para definir como humanos e máquinas se comunicarão na próxima década.

Em Destaque